具身智能今年首次出现在大众视野是今年3月,Google 发布了一款拥有 5620 亿参数的大模型 PaLM-E。为机器人感知世界建立的“基础模型”,跨越不同环境大量数据集,视觉、文本、语音多模态输入让机器人能够执行复杂任务,有个专门的分类 EAI(Embodied Artificial Intelligence)也就是“具身智能”
经过两个月大家对AI广泛的关注探讨,黄教主也在昨天的ITF World 2023上提出了人工智能下一个浪潮是“具身智能”。同时发布多模态具身人工智能系统,能够通过视觉理解文本,获取概念、理解边界、物理仿真。
原文如下:
Looking to the future, Huang referred to the next wave of AI as “embodied AI” — intelligent systems capable of understanding, reasoning and interacting with the physical world. He cited robotics, autonomous vehicles, and chatbots with heightened physical world comprehension as examples of this technology.
To demonstrate advancements in embodied AI, Huang unveiled Nvidia VIMA, a multimodal embodied AI system capable of carrying out intricate tasks guided by visual text prompts. Through acquiring concepts, comprehending boundaries and even emulating physics, VIMA signifies a notable progression in AI capabilities.
马教主更是说通用型AI算法支持的机器人,是公司未来长期价值所在。结合特斯拉人形机器人取得的长足进步和加速进程,相信具身智能已经在路上。
具身智能的关键在于机器人能够通过视觉识别身边物理环境并做出决策和行动。
具身智能=视觉感知输入+大模型/算法决策+机械反馈执行
视觉感知是区分普通工业机器人和具身智能的核心
相关概念股:
奥比中光:
如果说GPT大模型是“大脑”,那我们做的其实就是“眼睛”,两者负责视觉相关的神经元一起来完成整个过程,大模型技术对于3D视觉感知是一个很好的参考,我们会努力让“眼睛”更智能,不但能看到还要能看懂。目前公司海外子公司部分业务场景已接入ChatGPT-4,正在积极调试中。
公司针对服务机器人、工业机器人、ROS教育机器人等不同种类机器人推出了视觉感知方案。
通过对周围环境的实时感知和处理、对环境和任务的持续感知与分析,人形机器人、交互机器人等可以自我调整行为策略,适应不同的场景和需求,进一步提高其智能化水平。
凌云光:凌云光关键技术是通向具身智能的必经环节。但要留意凌云光有回复其目前技术不应用在人形机器人中
机器人:中科院+机器人
云天励飞:
绿的谐波:与三花智控合资墨西哥设厂,有可能专供特斯拉
其他机械反馈执行谐波减速器、电机等,绿地谐波、鸣志电器、中大力德,都是上一轮炒过的标的,就不一一列出了