多模态AI是一个组合词,即多模态+AI(人工智能)。而在计算机领域,“模态”大致意思是“数据类型”,多模态即指多种数据类型。因此,从字面意思理解:多模态AI就是将各种数据类型与多种智能处理算法相结合。但如果想进一步理解什么是多模态AI,就需要先搞清楚“多模态”的概念。
“模态(Modality)”是德国理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官与经验来接收信息的通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。由此可以看出,多模态AI实际上就是计算机视觉和交互式人工智能模型的最终融合,它为计算机提供更接近于人类感知的场景。
简单来说,如果说人与chatGPT的交互是以文字形式,目前加入了图片形式,那么把每个人的手机当做人工智能工具,可以看到人与手机(人工智能)的交互存在多种形式:密码解锁(文字交互),语音识别(听觉交互),指纹识别(触觉交互),面部识别(视觉交互),虹膜识别(生物交互)。
未来的人工智能发展趋势肯定是希望计算机可以和人类一样去认知,去思考。而人类在现实世界中信息获取、环境感知、知识学习与表达等方面都是采用多模态的输入、输出方式。
所以多模态人工智能是AI的必经走向,也是最终趋势。
如果说chatGPT打开了人与AI的主动交互的大门(人主动给AI提供交互信息),那么在这个大门后面是更多的交互方式,现阶段的人工智能可能仅仅只是冰山一角。
我们把以上交互方式归纳为三大类:文字、视觉、语音。
未来的人工智能肯定是要从可用AI走向可信赖性AI。
可信赖性就是人工智能具有更多的社会属性,根据指导性原则机器智能(机器主动)地感知周围环境并做出决策。
这样人工智能的多模态感知是必然的,因为需要AI来主动的搜集多模态信息。
所以可能以后会存在以人工智能数据为底座,延伸多种人工智能模型;现阶段的chatGPT是代表文字,未来可能会有visionGPT、voiceGPT(chat/vision/voice分别代表文字、视觉、语言)
多模态融合的最终产物,可能就是我们从 流浪地球 中看到的MOSS莫斯,或者是某部科幻片的机器人,每个人心目中的大白(能文能武、上知天文、下知地理)
MOSS,是电影《流浪地球》系列中的智能量子计算机,后因“隔离计划”被转移至领航员空间站,其中,在生活仓内的MOSS为白色,而在总控室内的MOSS为黑色。有自我意识、自我迭代、自我更新的特点。
MOSS是流浪地球计划与火种计划的监督者和执行者。MOSS坚定执行延续人类文明的使命,它能在最短的时间内做出最正确的决定,是趋于完美的智慧体。只要数据存在,MOSS就存在。MOSS没有生命期限,没有认知局限,剔除了感性思维意识,独留理性算法。
所以个人觉得现阶段的人工智能以chatGPT为一系列延伸的都是属于大人工智能的第一阶段;那么第二阶段就是以voiceGPT延伸、第三阶段是visionGPT以延伸;当人类计算机水平达到之后,将三个阶段进行融合,未来是可以诞生莫斯的;而且很有可能每个人都可以拥有莫斯。
以更宏观的角度去看待事物发展的进程,以及参考历史(智能手机从密码到语音到指纹到面部识别交互)规律,是可以得出一些结论的。我想在座的所有人看到个人分享的看法之后就会有更多的想法在自己心中
多模态 GPT 落地应用速度将会很快。
1~5 年内,多模态的输入输出主要将是文本、图像和音频,一大应用场景会是智能办公,如智能 PPT 和其他 office 套件,可以通过理解用户语言需求和根据用户提供的多模态输入数据,产出办公成果。
1~7 年内,多模态有望在综合机器视觉领域得到广泛应用,输入输出将包括 3D 模型,视频等,有望赋能自动驾驶领域感知、规控和仿真能力,亦有望有望提高 3D 模型生产效率,助力游戏内容与元宇宙构造。
5~10 年内,多模态 AI 模型有望具备与真实世界所有输入交互的能力,将极大提升人形机器人的能力,使得人形机器人加速落地普及。
但作为市场中的一员,应当思考市场将会怎样演变。因为市场的演绎历史是很迅速的,也许一个行业发展几十年。可能在市场中几个月就演绎完成了,市场的变化是事物发展进程中的缩影。
之前市场炒作AI+重点是其软件端的思考预期,接下来多模态的硬件端可能会成为资金新的战场,比如声音的硬件,视觉的硬件等等。所以接下来的方向,个人会将目光放在语音交互、视觉交互两大方向上,这里指的是两大类方向
如果细分来看,语音交互结构相对视觉交互结构简单
视觉交互存在数据收集过程,也就是数据数据采集,而语音交互相对来说数据采集这块量相对小一些;
举个不恰当的例子,眼睛和耳朵嘴巴都很重要;但是作为人来说看不见和听不到以及说不出,个人认为应该是眼睛相对重要些,但机器和人是有区别的。所以综合来看语音交互和视觉交互同等重要
对于语音交互方向来说,包括智能音响、智能耳机、智能眼镜、智能手环、智能手表为代表的消费电子大类(简单一点就是机器+声音)
对于视觉交互方向来说,包括智能安防、智能交通、智能ETC、智能驾驶(简单一点就是带摄像头的机器)
包括更高级别的脑机交互,这个离我们实际成熟应用还有点远。
其他的方向也希望更多的人去思考,人工智能未来发展形势上的变化。我经常说就是参考历史可以推演未来。因为事物的发展规律具有相似性和普遍性,市场也是这样,只不过市场是事物发展的缩影