【AI多模态进展简评】国金计算机
💡9月底,META和OpenAI相继发布各自在多模态领域的进展(AnyMAL和GPT-4V),推动了AI在多模态领域的持续进步。要点如下:
1.AnyMAL在LLAMA-2的基础上做了提升,除了视觉信号之外,也允许输入音频、IMU传感器数据等其他模态的信号。此外,70B的AnyMAL模型在单个80GB VRAM的GPU上面就可以跑,资源节约了一半,预计训练效率会大幅提升。
2.GPT-4V从多项任务上探索了多模态大模型的潜能,认为多模态能力的进步可能会催生新的人机交互方法,未来在比如制造业缺陷检测、自动收银、医学图像、保险定损、图像生成/编辑、物等等这些方向上可能会有较强的应用潜力。
算力的优化促进了大模型从电脑端到现实端发展,上半年算力光模块,gpu,服务器,游戏等涨幅亮眼,另外ai硬件的音箱手机,也有相应涨幅,下半年随着大模型从文字到图像发展,已经算力成本优化,未来ai应用硬件应该重点关注。
新的ai硬件:ar眼镜/智慧眼镜。佳禾智能,全市场唯一生产工业ar和消费ar,以及华为智慧眼镜,天猫智慧眼镜
ai音箱耳机:漫步者(行业天花板)佳禾智能(基本盘耳机接口覆盖阿里大模型,华为大模型)国光电气ai音箱双大模型,惠威
ai手机:传音控股(海外旗舰配置gpt4)