异动
登录注册
多模态AI的大机会!~
同人卦
中线波段的游资
2023-06-02 08:49:00
多模态AI是一个组合词,即多模态+AI(人工智能)。而在计算机领域,“模态”大致意思是“数据类型”,多模态即指多种数据类型。因此,从字面意思理解:多模态AI就是将各种数据类型与多种智能处理算法相结合。但如果想进一步理解什么是多模态AI,就需要先搞清楚“多模态”的概念。
“模态(Modality)”是德国理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官与经验来接收信息的通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。由此可以看出,多模态AI实际上就是计算机视觉和交互式人工智能模型的最终融合,它为计算机提供更接近于人类感知的场景。

 简单来说,如果说人与chatGPT的交互是以文字形式,目前加入了图片形式,那么把每个人的手机当做人工智能工具,可以看到人与手机(人工智能)的交互存在多种形式:密码解锁(文字交互),语音识别(听觉交互),指纹识别(触觉交互),面部识别(视觉交互),虹膜识别(生物交互)。
未来的人工智能发展趋势肯定是希望计算机可以和人类一样去认知,去思考。而人类在现实世界中信息获取、环境感知、知识学习与表达等方面都是采用多模态的输入、输出方式。
所以多模态人工智能是AI的必经走向,也是最终趋势。
如果说chatGPT打开了人与AI的主动交互的大门(人主动给AI提供交互信息),那么在这个大门后面是更多的交互方式,现阶段的人工智能可能仅仅只是冰山一角。
我们把以上交互方式归纳为三大类:文字、视觉、语音。
未来的人工智能肯定是要从可用AI走向可信赖性AI。
可信赖性就是人工智能具有更多的社会属性,根据指导性原则机器智能(机器主动)地感知周围环境并做出决策。
这样人工智能的多模态感知是必然的,因为需要AI来主动的搜集多模态信息。
所以可能以后会存在以人工智能数据为底座,延伸多种人工智能模型;现阶段的chatGPT是代表文字,未来可能会有visionGPT、voiceGPT(chat/vision/voice分别代表文字、视觉、语言)
多模态融合的最终产物,可能就是我们从 流浪地球 中看到的MOSS莫斯,或者是某部科幻片的机器人,每个人心目中的大白(能文能武、上知天文、下知地理)

 

 MOSS

是电影流浪地球系列中的智能量子计算机后因隔离计划被转移至领航员空间站其中生活仓内的MOSS为白色而在总控室内的MOSS为黑色有自我意识自我迭代自我更新的特点

MOSS是流浪地球计划与火种计划的监督者和执行者MOSS坚定执行延续人类文明的使命它能在最短的时间内做出最正确的决定是趋于完美的智慧体只要数据存在MOSS就存在MOSS没有生命期限没有认知局限剔除了感性思维意识独留理性算法

所以个人觉得现阶段的人工智能以chatGPT为一系列延伸的都是属于大人工智能的第一阶段那么第二阶段就是以voiceGPT延伸第三阶段是visionGPT以延伸当人类计算机水平达到之后将三个阶段进行融合未来是可以诞生莫斯的而且很有可能每个人都可以拥有莫斯

以更宏观的角度去看待事物发展的进程以及参考历史智能手机从密码到语音到指纹到面部识别交互规律是可以得出一些结论的我想在座的所有人看到个人分享的看法之后就会有更多的想法在自己心中

多模态 GPT 落地应用速度将会很快

1~5 年内多模态的输入输出主要将是文本图像和音频一大应用场景会是智能办公如智能 PPT 和其他 office 套件可以通过理解用户语言需求和根据用户提供的多模态输入数据产出办公成果

1~7 年内多模态有望在综合机器视觉领域得到广泛应用输入输出将包括 3D 模型视频等有望赋能自动驾驶领域感知规控和仿真能力亦有望有望提高 3D 模型生产效率助力游戏内容与元宇宙构造

5~10 年内多模态 AI 模型有望具备与真实世界所有输入交互的能力将极大提升人形机器人的能力使得人形机器人加速落地普及


但作为市场中的一员应当思考市场将会怎样演变因为市场的演绎历史是很迅速的也许一个行业发展几十年可能在市场中几个月就演绎完成了市场的变化是事物发展进程中的缩影

之前市场炒作AI+重点是其软件端的思考预期接下来多模态的硬件端可能会成为资金新的战场比如声音的硬件视觉的硬件等等所以接下来的方向个人会将目光放在语音交互视觉交互两大方向上这里指的是两大类方向

如果细分来看语音交互结构相对视觉交互结构简单

视觉交互存在数据收集过程也就是数据数据采集而语音交互相对来说数据采集这块量相对小一些

举个不恰当的例子眼睛和耳朵嘴巴都很重要但是作为人来说看不见和听不到以及说不出个人认为应该是眼睛相对重要些但机器和人是有区别的所以综合来看语音交互和视觉交互同等重要

对于语音交互方向来说包括智能音响智能耳机智能眼镜智能手环智能手表为代表的消费电子大类简单一点就是机器+声音

对于视觉交互方向来说包括智能安防智能交通智能ETC智能驾驶简单一点就是带摄像头的机器

包括更高级别的脑机交互这个离我们实际成熟应用还有点远

其他的方向也希望更多的人去思考人工智能未来发展形势上的变化我经常说就是参考历史可以推演未来因为事物的发展规律具有相似性和普遍性市场也是这样只不过市场是事物发展的缩影




作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
熵基科技
工分
1.73
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往