1) 超级助手与用户的交互一定非常高频,很可能不在 PC 上,而是手机或下一
代的终端上。这里面会涉及到几个很大的博弈:
a)iOS /安卓是否允许有这样的东西出现,除非他们自己做。会不会出现很大
的限制或博弈关系,比如前面提到的不允许调用等;
b)如果发生在手机上,Foundation Model 可以做很多信息层面的整合和娱乐。
但一旦涉及到服务层面,比如国内的美团、淘宝、拼多多、京东、滴滴、
微信,肯定不会跟三方合作,海外的 Amazon、google、Uber 也类似,他们
可能也会推出自己的类似产品,推演下来是很长的周期。
c)有猜测说 OpenAI 和微软可能会发布 AI Native 的手机,模型是软件形态,
未来要做到设备上,今年年底前有可能会有消息。现在更自然的方式是
Apple 把 iphone 的屏和里面的内容结合语音聊天来做。(复杂的应用交互可
以用快捷指令编排,再用 Siri 唤醒快捷指令
2) 如果 Apple 的 Siri 变成 GPT,对格局有怎样的影响?
GPT 目前不到两亿用户,Siri 约有 15-20 亿用户(iPhone 活跃用户为 15 亿)
,
Google 有 43 亿用户,如果他们的超级助理效果达到一定水平,促使用户快速
adopt,规模效应、后发优势是很强的,Apple 是值得认真想的场景。
而且 Apple 现在有很多硬件组合,包括 AirPod、Apple Watch 和手机,Apple 的
屏幕是视觉,AirPods 做语音沟通,只要 Apple 把 GPT 接到 Siri 上,很快就可
以实现更高级的助理。
从 C 端体验看“超级助理”和 App/SaaS 之间的关系
Plugin VS LangChain:LangChain 价值是所有 App /SaaS 依然是面向 B 端和 C
端的前端,底层是大语言模型; Plugin 则是 OpenAI 把自己放在最前端,下面
长出小的应用。这和站在用户视角上是相反的,超级助理对 App / SaaS 有什么
影响,可以多考虑站在用户视角的体验
ToC 的应用追求体验感,聊天是否体验最好,不同场景答案不一样;明确的需
求,聊天体验感也许是最好的;如果需求无法描述清楚,比如订酒店涉及到周
边环境、用户评价、价格、早餐,用传统的交互方式,比如点选、浏览,看似
浪费时间,其实是选择的过程。谁站在离用户最近的界面,核心在于谁能给用
户带来最好的体验感。
SaaS 产品很可能重塑:SaaS 很复杂,产品定义决定日常使用习惯,是匹配的
关系。比如 BI 有非常多的形态是因为没有一个软件能够非常好地把这两件事情
结合起来。chat 是一种交互方式,但通过 Excel 的 UI 界面去点选,可能更快。
但产品重塑就要更好地把什么用聊天去解决,什么用点选的方式去交互的,这
两个事情更好地结合起来。个人倾向还是有 UI 界面,承载熟悉的操作方式,一
些任务通过聊天的方式进行。
核心是一定是因为它是让 c 端和 b 端的体验感最好的,c 端的体验感是用得更
爽,b 端的体验感是如何能够让我和工作耦合得更顺滑。
长期来看,“超级助理”应该真的像秘书一样,吸收了用户的多维信息;用户模
糊的需求可以根据工作生活的经历理解,然后操作。Inflection 和 Adept 做的都
是自动 Action,只不过现在还没有主动做的能力,因为主动做给的权限太高了。
终极形态到底长什么样?
可能有两种:
1、Jarvis (漫威电影里钢铁侠跟 Jarvis 交互的形态),多模态、脱离屏、跨
端、无所不知、能操控所有系统;
2、Her,对你充分了解,对你的行为模式/沟通方式了如指掌,终极形态有
可能是这两个结合起来。
多模态肯定是一个终极形态:人类通过纯语言交互获得信息的比例很低,
不超过 20%,视觉和图像获得信息的比例很高。纯语音交互可能是因为手
干不了事情,点不了屏幕,多模态肯定是一个终极形态。
“超级助理”领域的长期竞争格局猜想:
1) 类比硬件端:可以看看苹果是如何打败诺基亚的;
2) 类比到自动驾驶的终极形态是共享运营、电动车还是自动驾驶大脑结构,
目前存在三类竞争对手:
滴滴;
整车厂(特斯拉/蔚来、传统主机厂);
百度等自动驾驶公司。
这三类谁能够成为自动驾驶的终极形态?目前来看车厂越来越强势,和两个核
心问题相关:
1、既有的玩家 & 新出现的颠覆性玩家,谁更有能力构建别人的生态?传统车
厂做自动驾驶的算法没有那么难,但自动驾驶算法去造车就比较难。面对
Google/苹果这样拥有完整生态的竞争对手,OpenAI 或者微软如果想把这些
东西都包含进来(自己干或与传统竞争对手里排名后位的人合作),还是苹
果、Google 自己研发大模型,哪个更容易?
2、第二,留了多少时间。自动驾驶时间太长了,刚开始百度算法模型很好,
车厂没有能力获取,短时间内技术上有极大优势。但是如果算法不上车,
就没有办法获取数据,算法和模型永远都是 3 岁小孩。只有当激光雷达成
本降下来,能大规模获取数据时,才是正式比拼的时候。现在 LLM 离终极
形态有多长时间?如果时间很短,那传统的对手反应的速度有没有那么
快?如果时间周期非常长,那竞争格局就会非常复杂。
3) 在终极形态的驱动下,到底谁能有机会?在竞争的过程中,很多时候是通
过钱来换时间,如果有这个机会,那 OpenAI 形成的壁垒就不太存在,如果
没有,先发优势就比较明显。
4) 在整个周期中,假设以 2 年为一个代际,GPT6/7 如果能够操作所有软件,
并且能看你所看、想你所想、听你所听,个人助理这个词是不是不恰当?
个人没有能力可以拥有生物/物理/法律博士的能力,也不会把销售、工程、
产品 VP 叫做助理。如果 LLM 能掌握所有软件,相当于拥有了产品/销售团
队。
5) 跳出传统软件思维,回到大场景其实有很多的机会。助理的体验不在于自
然语言、UI、并存、多模态,而是一种类似管家的逻辑,可以帮助用户做
很多的事情。用五星级酒店类比,酒店里客户一般直接加大堂经理微信,
有任何问题直接微信交流,不需要研究酒店什么服务,所有的事情找工作
人员就可以了,然后工作人员拿着东西来跟客户交互,这个过程就像
Copilot,Copilot 等同于拿着 iPad 跟用户交互的助理。当然了,交互方面未
必所有的功能都齐全,但这更核心的事情是他了解你的上下文以及外部的
上下文,是全联通的,在场景上面实际上是有很多东西的