【谷歌Gemini】具备强大多模态和逻辑推理能力丨中信证券计算机
近日,谷歌官方发布迄今为止规模最大、能力最强的Gemini大模型,按不同模型规模包括Gemini Ultra、 Gemini Pro、Gemini Nano三个版本。根据官方测试数据,模型文本能力出众,性能最优的Ultra模型在MMLU测试集上以90.0%的高分,成为历史上第一个超越人类专家的模型。
【多模态能力】方面,Gemini采用“原生多模态”架构,文本和视觉等输入在统一模型架构下参与预训练,而不是采用类似GPT4V的语言模型和视频模型分别训练再融合的模式,因此各模态之间的结合会更加顺畅。Gemini比以前的模型都更接近AGI的标准。
【推理能力】方面,模型在数学、物理等学科问题上表现优秀,可以对解题过程的进行步骤拆分,并可以针对任一步骤进行单独提问。同时模型具备支持多模态的复杂推理能力,可以理解视觉信息,可以基于视觉和文本提出具有一定创新性的观点。
针对Gemini定制版,谷歌推出AlphaCode 2,性能超过85%的人类程序员。同时谷歌同步发布TPU v5e,较TPU v4性价比提升2.3倍,采用全新计算芯片的Gemini模型,较前代PaLM模型运行速度更快、更便宜。
根据我们此前外发的大模型系列报告,我们继续看好大模型多模态能力进展和商业化进程加速,建议持续关注相关领域的头部AI公司:
1)应用层:金山办公、科大讯飞、用友网络、金蝶国际、万兴科技、当虹科技、虹软科技等;
2)算法/数据处理:科大讯飞、星环科技等。
3)算力层:海光信息、工业富联、中科曙光、浪潮信息等。
==========================
大模型系列研究合集
https://note.youdao.com/s/EBi6LurN
==========================
中信证券计算机团队 杨泽原/丁奇/马庆刘