性能超GPT-4!谷歌放出最强悍大模型Gemini
北京时间12月7日凌晨,谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月,保密程度很高,仅有少数媒体提前猜出。
Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品,也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型,包括三种不同套件,分别是Gemini Ultra, Gemini Pro和Gemini Nano。其中Ultra的能力最强,复杂度最高,能够处理最为困难的多模态任务;Pro能力稍弱,是一个可扩展至多任务的模型;Nano则是一款可以在手机端侧运行的模型。这说明,Gemini的触达范围很广,可以下探至数据中心,也可以上行至移动设备端侧。
谷歌的Bard聊天机器人,此番也已经升级到了Gemini,可以说Gemini的初始版本已于今日开始在Bard中提供。从5月的I/O大会之后,谷歌就将自己此前最强的人工智能模型PaLm 2融入了Gemini的能力之中。
在一段公布的演示视频中,桑达尔・皮查伊展示了Gemini对视频、图像的非同凡响的识别能力。在视频中,Gemini极为自如地在图像、音频、视频各模态之间的转换,展现了惊人的解锁应用场景与产品形态的潜力。
若GPT4转向多模态,图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文字、问答与办公,打开有望未来AI在下游千行百业的应用空间,进一步打开市场想象力。
网达软件:公司坚持“高新视频与人工智能结合”的发展战略,持续专注计算机视觉算法,将人脸识别、人体识别、人像处理、图像处理、物体识别等算法和视频资源进行整合,布局多领域、多方向前沿研究,打通 AI 在各个垂直场景中的应用,为智慧商业网点、智能生产监管、智能社会安全等领域提供解决方案。
根据“同花顺F10——概念题材”显示,公司在高清视频编解码技术等方面进行了相关技术研究。其中,分布式文件转码软件、在线转码软件等已实现大规模商用。
同时通过“同花顺F10——经营分析”可以看到,公司几乎所有的营收构成都是视频相关的业务,妥妥的视频处理标的。公司近年来持续加大研发投入,积极布局人工智能领域,公司控股子公司云目未来科技(北京)有限公司是一家依托深度学习与计算机视觉技术,用 AI“理解”视频内容的科技公司。云目未来聚焦于视频 AI 技术,自主开发了 AI 视频中台、AI 业务大脑等核心产品,并在政府、企业的需求场景实现了技术应用落地,现服务于多家政府、企业客户。