【国盛计算机】多模态GPT,朝着科幻前进
继零样本分割一切的SAM,Meta又迅速开源DINOv2模型,DEMO网址:网页链接
DINOv2 能产生高性能的视觉特征,用于不同下游视觉任务如分类、分割、图像检索和深度估计,不需要微调。
其创新点和优秀性能来源于使用图像自监督学习的方式训练,不需要图像和文本对应的训练数据,克服了文本对图像描述不够全面的局限性。
DINOv2蒸馏成小模型后效果依然优秀,能在大部分测试基准超过之前最好的模型OpenCLIP。Meta表示正计划将DINOv2集成到更大的人工智能系统中,提供丰富图像特征与大语言模型交互。
影响:1)不需要微调即可胜任玩成图生文前期任务,提升整个方案的泛化能力,为后续识别的泛化能力提高打下基础。2)能蒸馏成小模型,便于在各种边缘场景及本地话落地。3)为大语言模型提供图像特征,加速多模态人工智能的发展。
朝着科幻前进。预计1~5年内,随着多模态的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。预计5~10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
相关标的:大华股份、海康威视、云从科技、千方科技、商汤科技、萤石网络等及算力产业链公司。