近日,Meta AI在官网发布了基础模型 Segment Anything Model(SAM)并开源。其本质是用GPT的方式(基于Transform 模型架构)让计算机具备理解了图像里面的一个个“对象”的通用能力,从而不像过去需要大量专门数据训练,就能具备对所有图片分割出各个主体。
SAM 基于 1100 万张照片训练,模型和数据全部开源,看好多模态解决方案产业链。1)SAM 开创性地跟 Prompt 结合了起来。它可以接受各种输入提示,例如点击、框选或指定想要分割的对象,这种输入并不是一次性指令,你可以不停地对图像下达不同的指令达到最终的编辑效果,
这也意味着此前在自然语言处理的 Prompt 模式也开始被应用在了计算机视觉领域。