报告作者:国盛证券分析师 刘高畅)
Meta 发布 SAM,零样本分割图像中一切对象。SAM 可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容,并且可以灵活集成其他系统。SAM 初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的GPT-3。
4 月 6 号,Meta 发布 Segment Anything Model(SAM),该模型可以用于分割图像中的一切对象,即使是训练数据中没有见过的对象。
SAM 可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容。对于不明确的提示,比如到底要分割出人穿的衣服还是整个人,SAM 会生成多个分割掩码。
SAM 可以灵活集成其他系统,比如将 AR/VR 头盔的用户视线作为提示来选择对象,也可以将分割输出用作其他 AI 系统的输入,用于 3D 建模等任务。
SAM 的模型结构设计高效灵活,先通过图像编码器为图像生成一次性编码,在用一个轻量级编码器将任何提示实时转换为编码。然后将这图像编码和提示编码两个信息源组合在一个轻量级解码器中,用于预测分割掩码。计算好图像编码后,每个提示只需要几毫秒就能在浏览器中运行。
Meta开源了 SAM的模型和包含 1100万张图像和 11亿个掩码的训练数据集SA-1B,该数据集包含的图像数量是以前可用分割数据集的六倍,分割掩码数量是以前的 400倍。
英伟达人工智能科学家Jim Fan在推特表示他认为Meta的这项研究是计算机视觉领域的“GPT-3 时刻”之一。在 NLP 领域中,GPT-3 的成功之处在于大量数据上进行预训练,得到了具有强大泛化能力的基础模型,在翻译,写作或对话等不同领域应用时都只需很少或不需要微调。
SAM 是一个可以执行交互式分割和自动分割的通用模型。以前要解决分割问题,有两类方法。第一种是交互式分割,允许分割任何类别的对象,但需要一个人通过迭代完善掩码来指导方法。第二种是自动分割,允许对提前定义的特定对象类别(例如,猫或椅子)进行分割,但需要大量手动标注的对象来训练(例如,数千甚至数万个分割猫的例子)。
如同 GPT-3 在 NLP 领域的成功,SAM 通过大规模分割数据集的训练,已经学会了物体是什么的一般概念,这种理解可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练,这让 SAM 可以成为计算机视觉领域各类任务的基础模型。并且 GPT-3 可以使用“提示”技术对新数据集和任务执行零样本和少样本学习,SAM 也从中获得了灵感,将提示技术用于图像分割。
展望将来,SAM 可以成为更大的 AI 系统的一个组成部分,用于对世界做更通用的多模态理解,例如,理解网页的视觉和文本内容;在 AR/VR 领域,SAM 可以根据用户的目光选择对象,然后将其“提升”到 3D 中;对于内容创作者,SAM 可以提取图像区域以进行拼贴或视频编辑;SAM 还可通过定位动物或物体在视频中进行研究和跟踪。
当前多模态的输入输出主要是文本、图像和音频,可以应用于智能办公和,AIGC 还有智能音箱等场景。微软已率先发布了 365 Copilot 产品助力智能办公,另外多模态在 AI绘画、AI 音乐创作以及看图写稿等 AIGC 方向也有广泛应用。目前 office 类工具和 AIGC,年内预计海康大华商汤云从都有算法级的 DEMO 积累,全球产业链开始出现信号。多模态还能提升智能音箱的交互体验,有望助力智能音箱渗透率提升。
预计 1~5 年内,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。谷歌的 Palm-E 模型现在已经能控制机器人完成一些需要泛化能力的任务。未来随着模型通用性的提高,部署成本降低,多模态会赋能众多工业领域,比如煤矿行业智能化提高生产安全和效率。
预计 5-10 年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。从 GPT 到通用机器人的应用规模化落地,需要解决机械控制、模型泛化能力、模型规模扩大后算力扩展、续航能力等基础问题。
1)机械控制。人形机器人在运行的时候不需要特殊的环境或对环境进行改造,具备更开放的生态、更快的场景适应性。但由于不同的关节构造、不同的轴、不同的手指数或手之间承担的力量、转动幅度和灵活性存在差异,人形机器人的关节机械控制成为难点。
2)模型泛化。机器人下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。SAM 的出现让视觉泛化能力迈进了一大步,有望应用于人形机器人。
3)模型规模扩大后算力扩展
模型扩大后算力将成为瓶颈,特斯拉打造 Dojo 平台,实现最佳的 AI 训练性能,启用更大、更复杂的神经网络模型,实现高能效且经济高效的计算。
4)能源问题
机器人能源问题包含两方面,一方面需要关注机器人电池组,解决电池续航能力问题;另一方面针对能源管理系统,需要解决电池冷却等问题。
多模态技术还能助力游戏内容与元宇宙构造,随着 AR/VR 技术的发展,未来将能构建逼真的虚拟现实。比如传统的 3D 模型构建需要耗费大量时间和人力成本,但用 AI 可以快速进行 3D 模型,还能快速制作游戏中的 NPC,对游戏创作和元宇宙构造起到降本增效的作用。
以上内容仅供学习交流,不构成投资建议。详情参阅原报告。