催化剂主要是昨晚谷歌的发布:30项评分超越GPT-4V,谷歌推出多模态大模型“Gemini”:Gemini也不负众望,一亮相就拿出了许多亮眼的成绩:首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4。
GPT-4.5可能要被迫提前出战了
Anthropic第一个多模态版本的Claude估计也快了(是不是像Gemini一样的端到端多模态?可能算力不支持)
开源模型们什么时候出多模态?(这个可能更难...)
谷歌Gemini对AI应用的意义,要超过OpenAI,对应用的诞生可以更乐观一点。
谷歌物美价廉的TPU、以及遥遥领先的光互联网络(可与Nvlink IB一战),相关投资会加强。
首先,你不能否认Gemini的强大,虽然已经有人开始质疑视频的剪辑夸大了延迟速度,但只看结果有些推理能力的确强到吓人。但全面超越GPT4?不妨先等等。有人将Gemini昨晚paper中的测试问题prompt,同样去问了GPT-4v,直接提交了paper截图而没有转文字,GPT-4v答对了14题中的12个,也是相当牛逼了,而且是用GPT-4v实测数据和Gemini ultra的理论数据比较。是不是“全面反超”,真的要看ultra版本明年初上线后的实测数据。
但有一些可以先下的结论。首先,Gemini会加速super app的诞生。谷歌相比OpenAI最大优势就是天然的互联网场景,每一个技术突破,可以瞬间辐射全球网民。这一点远远强于to B的微软,如果说office / windows copilot还不足以撬动应用,那youtube、安卓、google search、地图、语音助手Now、日历、浏览器、workspace等等谷歌应用套装,可以一夜之间被Gemini接入,根本没有微软copilot面临的什么“adoption”“渗透率”问题,直接APP版本迭代上线了。这是OpenAI+微软联盟做不到的,因为缺了一个苹果的角色。且模型训练和应用之间,在一个公司体系内,可以建立如APP一样良好的迭代反馈机制,实现真正的在线训练。这一点相比OpenAI也有优势。此外,收入和Capex投资之间,建立更好的传导机制。之前SGE也就是谷歌生成式搜索产品,被证明的确提升了用户体验,且对收入没有影响(更准确的结果,更高的点击率),甚至可以在问答页面做一些额外广告。虽然这部分收入在谷歌2000多亿美金的广告revenue面前微乎其微,但可以完全用来cover新的capex投入,这至少是良性的ROI循环投资。
其次,Gemini是第一个真正的端到端多模态。GPT-4v训练阶段是将文字、语音、图片等不同模态先做向量化,然后不同类型向量的embedding做对齐(最典型是CLIP),而非真正的端到端。一个真正的多模态,应该支持输入和输出的任意格式组合,输入文字或视频并输出视频,输入图片输出图片或视频,输入3D输出3D或视频或图片。因为Gemini采用了encoder-decoder的架构,而不是ChatGPT最开始的decoder架构,且Gemini的decoder是一个多层的decoder,可以直接输出一些在文本空间能够对齐的token。目前不知道GPT4.5或GPT5的模型架构是否有大的变化,但行业对transformer的微调和架构创新不断涌现,预示着技术有可能出现非线性变化。
其次,谷歌的训练和推理成本会非常低。TPU的单颗cost是5000美金(v4,来自博通财务模型估算,TPU v5会更贵),相比于OpenAI+微软以大客户折扣最终2.6万美金买到的H100,就是个零头。绕过了英伟达这个中间商赚差价!TPU通用性不行?的确,GCP上客户还是选拥有CUDA开发更灵活的H100。但Gemini从训练到推理到应用部署假如都是google自己的,还要什么自行车?当然成本里面又涉及到多卡互联带来的利用率问题,但在1/4价格面前也不算什么