2023年5月,在ITF World 2023半导体大会上,英伟达创始人兼CEO黄仁勋介绍了英伟达的多模态具身智能系统NvidiaVIMA,能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学,标志着AI能力的显著进步。
黄仁勋表示芯片制造是 Nvidia 加速和 AI 计算的“理想应用”,人工智能下一个浪潮将是“具身智能”(Embodied Intelligence)(embodied AI)。
根据黄仁勋的描述,新型人工智能--“具身人工智能”,即能够理解、推理并与物理世界互动的智能系统。
此外,在特斯拉召开2023年年度股东大会上,马斯克展示了人形机器人Optimus的全新型号,和具身智能机器人几乎划等。马斯克表示,人形机器人将是今后特斯拉主要的长期价值来源,他也认为以具身智能机器人为代表的产品有望成为人工智能的下一浪潮。
当前国内政策也加码推进具身智能该领域的发展。5月,北京市发布《北京市促进通用人工智能创新发展的若干措施(2023-2025 年)(征求意见稿)》,其中便提出探索具身智能、通用智能体和类脑智能等通用人工智能新路径,包括推动具身智能系统研究及应用,突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。01
具身智能行业概览
根据“视觉求索” 文章,朱松纯教授将 AI 归纳为六大子领域:2)自然语言理解与交流(包含语音识别合成、对话)、4)机器人学(机械、控制、设计、运动规划、任务规划 等);5)博弈与伦理(多代理人 agents 的交互、对抗与合作等);6)机器学习 (统计建模、分析工具和计算方法)。
人工智能是很多概念的总和,其中有些概念很难被测量和验证,例如让机器理解什么是社会、什么是责任,虽然能输出一个表征,但很难检验机器是否真正理解这些概念,因此可在一些可验证、可测量的概念上做出一个闭环,而具身智能刚好是这样的闭环,是迈向通用智能很好的起点。
具身智能是指像人一样能与环境交互感知,自主规划、决策、行动、执行能力的机器人或仿真人,又可称之为“具身智能机器人”。它的实现包含了人工智能领域内诸多的技术,例如计算机视觉、自然语言处理、机器人学等。总的来说,具身智能机器人首先要能够听懂人类语言;其次分解任务,规划子任务,移动中识别物体,与环境交互,最终完成相应任务。具身智能机器人涉及到众多的学科,如,软件工程、自然语言处理、物理学(仿真)、生物医学等。多个学科最终汇聚为宏大的系统,共同推动具身智能机器人进一步发展。
具身智能与非具身智能的区别在于能够从环境交互中自主学习,并产生对客观世界的理解与改造,不依赖人工进行的数据标注。1950 年,图灵在他的论文《Computing Machinery and Intelligence》中首次提出具身智能的概念。在此后几十年里,具身智能作为很重要的概念,并没有取得很大的进展,因为当时的技术还不足以支撑其发展。到了今天,多学科的技术已经改变了这一局面。具身智能的研究已广泛拓展到教育、材料、能源等领域, 成为未来新一代人工智能理论与应用突破的一个重要窗口。 资料来源:机器之心清华大学刘华平教授等人在《基于形态的具身智能研究: 历史回顾与前沿进展》中总结了海内外多方面研究后提出:具身智能(Embodiedintelligence)相对于离身智能 (Disembodied intelligence)更侧重关注“交互”, 即智能受脑、身体与环境协同影响, 并由身体与环境相互作用中, 通过信息感知与物理操作过程连续、动态地产生。具身智能未来可望获得突破的发展方向包括形态涌现、感知进化、物理实现、多体协同等。刘教授等人也强调,尽管具身智能很重要,其有着自身的局限性,与离身智能的紧密结合才 是实现通用智能的必由之路。斯坦福大学计算机科学教授李飞飞认为,具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。而交互最直接的障碍在于,人们严重依赖手写代码来控制机 器人。 资料来源:《基于形态的具身智能研究:历史回顾与前沿进展》上海交通大学卢策吾教授在机器之心 AI 科技 年会上发表主题演讲 《具身智能》,提出 PIE 方案,认为具身智能包括 3 个模块:具身感知(Perception)、具身想象(Imagination)和具身执行(Execution)。全概念感知是指能够知道我们所操作的这个世界模型(world model)的各种各样的知识,与操作相关的知识,包括外形、结构、语义,以及 48 个真实世界关节体类别等等。2、具身想象:具备了感知的素材,下一步是确定怎么做。上海交通大学做了名 为 RFUniverse 的仿真引擎,该仿真引擎支持 7 种物体(比如关节可移动的、柔性 的、透明的、流体的……)、87 种原子操作的仿真。还成功探索了从看视频到机器人的行为:给机器人看 50 个场景,看完后就会在仿真引擎中去尝试类似的事情,尝试完之后再迁移到真机上。另外,这套思路还可以放到人体的康复上面,去做医疗看护机器人。PIE方案中希望建一个元操作库,就能调用各种元操作来解决实际操作问题。目前有三个领域在做这件事情:计算机视觉、机器人学和计算机图形学。
02
具身智能产业机会前瞻
具身智能有望打开 AI 新空间,引领人工智能下一站浪潮。实现具身智能需要多个学科的交叉能力。当前具身智能产业链中包括数字基础设施、机器人制造、机器视觉、多模态大模型的厂商等相关环节投资机会值得重点关注。机器人制造:为具身智能提供了机械的身体和基本的运动控制。
深度学习:该学科中的神经网络仍然是具身智能中主要的工具。为具身智能提供推理能力;强化学习,从环境反馈中,帮助具身智能调优模型。多模态:计算机视觉,为具身智能提供处理视觉信号能力;语音与自然语言处理,为具身智能提供理解与对话能力,实现与人类交互。计算机图形学:其开发的物理仿真环境给具身智能提供了真实物理世界的替代,大大加快了学习的速度并降低了成本。03
具身智能机器人:AI终极载体
具身智能的出现有望持续引领“大模型+机器人”潮流。具身智能机器人是具身智能的实体形态,有望成为 AI 的最终载体。工业机器人主要根据控制系统发出的指令信号控制机器人主体完成任务,主要依赖于机器人的执行层。与工业机器人不同,具身智能机器人若能像人一样与环境交互、感知、决策、完成任务,将不得不提升感知层和认知层的能力。因此,感知层和认知层是工业机器人向具身智能机器人迈进的门槛。感知层
感知层类似人的五官,负责收集环境信息,在单一场景下机器或许可以通过感知来绕过决策控制。感知层中视觉的重要程度较高,视觉感知或是具身智能机器人的核心。 来源:具身智能机器人公众号从人体的感官来看,80%的信息获取来自于视觉,根据仝人智能吴易明博士分析,感知层面的核心在于视觉感知,主要原因:感知层需要与运动层交互印证:首先视觉感知需要与物理实存进行交互印证,是具身智能实现的基础;感知能力提升可使机器人运动更加“拟人化”:视觉感知通过与运动系统的执行参量、信息数据交互修正,使具身机器人从传统的僵化肢体运动提升为为高自由度、高精密、多表现形式的运动。机器视觉和多态语言大模型的快速迭代有望大幅提升机器人的感知能力和认知能力。交互层
决策交互层作为核心处理枢纽,需要类似人类大脑的处理能力,满足机器在理解指令、分解 任务、规划子任务、识别物体完成人机交互和环境交互等方面的需求,多维度的人机交 互在传统的机器人领域是一大难题。因而当下的研究更多体现在特定指令下对于环境交互的探索,也即如何更智能地执行特定物理任务上。GPT-4 出现让机器人对于现实世界中图像、文字、数据的理解进入新台阶。根据微软最新的一项研究,将 GPT 拓展至机器人领域,实现语言控制机械臂、无人机等多个平台。多模态的引入拓展了交互的丰富性,大幅提升人机交互和环境交互能力,助力机器人能 力再上新台阶。未来有望在更多场景落地应用,包括自动驾驶、工业自动化、 医疗健康、家用服务、教育、娱乐等众多领域,帮助人类实现极端环境作业、 多领域降本增效。可进一步关注目前可用大模型进行改造的硬件机器人类型及应用场景。包括以对话为主的服务机器人、工业机器人和复杂场景下的人形机器人。特斯拉推出的人形机器人Optimus、波士顿动力的Atlas和Spot就具备接近具身智能的能力。它们可以通过机器人的身躯来模拟人类或动物的行为和动作,更加逼真地与人类进行互动。算法侧来看,特斯拉的Dojo AI超级计算机项目用于加速训练和推理具身智能模型,英伟达的多模态VIMA可以驱动机器人识别物体并做出动作。从远期潜在需求量来看,具身智能机器人在制造业、家政服务、商业服务等多个领域均有潜在需求,未来具身智能机器人的需求量将远多于目前工业机器人的需求量。随着技术的突破带来性价比提高,未来具身智能渗透率有望加速提升,行业想象空间巨大,千亿蓝海有望开启。更长远来看,未来具身智能+人形机器人或将成为通用人工智能的演进方向。
04
多模态大模型:下一步重要应用方向
具身智能作为人工智能重要应用,需要多复合型的模型能力。阿里巴巴张勇表示制造业是 AI 大模型的重要战场,未来 10 年最大的机会就在于云、AI 与物理世界机器的融合。除了诸如视觉、自然语言处理等单领域模型的纵深发展,多模态大模型的加持或将成为下一步重要的应用方向。AIGC的“智能”表现在能够进行上下文理解和情景感知,输出文字、图像、声音。进入 AIGC 时代后,GPT 等大模型有望作为人类与机器人沟通的桥梁。即通过 将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理 解,帮助机器人处理具身推理任务。AI 大模型浪潮下,谷歌、微软、 阿里等巨头均发力探索 AI大模型与具身智能的融合。目前,诸多大厂已在具身智能领域进行布局,谷歌发布史上最大通才模型 PaLM-E;微软探 索如何将 ChatGPT 扩展到机器人领域;阿里巴巴-千问大模型正 在实验接入工业机器人等。
资料来源:google让大模型成为机器人的 “大脑”,并基于自然语言实现机器人控制,或将成为未来热门的研究方向。前微软全球执行副总裁陆奇博士在演讲中提到,在我们当前所处 的“模型”新范式后,下个范式“行动”范式,是以自动驾驶、机器人和空间计算 组合的物理空间中革新范式。所以继 LLM(大语言模型)后的下一个范式必然是机器 人,从当下的时间节点看,硬件实体机器人也是大模型的重要落地场景。由于具身智能相较于非智能普通人形机器人有更高的工作效率,其具备的理解力、交互力、规划能力等,在机器人进入千行百业后,拥有极强的落地实用性。随着技术的突破带来性价比提高,未来具身智能渗透率有望加速提升。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。