微软开发了两款大模型,一款开源的WizardMath和多模态的CoDi。
笔者认为,随着奥特曼的加入,微软对一直不愿意大力商业化的openAI心生淡意,转而会大力发展和推广自己的大模型。而,多模态的CoDi将成为重点发展对象而推向前台!
1.CoDi介绍:
微软设计CoDi的目标,旨在解决传统单一模态AI模型的局限性。以同步视频和音频为例,独立生成的信息流拼接在一起时可能存在不一致和对齐的问题。
CoDi 采用了独特的可组合生成策略,在扩散过程中对齐多模态,从而生成相互交织的模式,更重要的是,CoDi 能够处理任意输入模式并生成任意模态的内容。
2.CoDi 有哪些功能?
CoDi处理和生成文本、图像、视频、音频的内容和能力可能会将个性化内容提升到一个新的水平,数字娱乐平台可以利用这项技术来创建满足个人用户偏好的定制内容从而提高用户的参与度和满意度。深度沉浸式多媒体体验,CoDi能够同步生成视频和音频,为沉浸式多媒体提供了可能性,这可能能改变我们消费娱乐的方式,从互动电影和视频游戏到虚拟现实体验。例如在游戏中生成更加真实的场景和角色,或者在电影中生成更加逼真的特效。自动生成内容,利用CoDi,数字娱乐公司可以跨不同模式自动生成内容,这可以简化内容的创建过程,从而更快地制作和分发新闻文章、视频等。可访问性,CoDi可以显著增强媒体的可访问性,例如可以为有视觉障碍的人生成视频或音频或为有听力障碍的人创建音频内容的手语内容。互动教育,在教育媒体领域,CoDi 可以用于创建引人入胜的互动学习,通过跨多种模式处理和生成内容,它可以满足不同的学习需求,使教育更加包容和形成有效的风格。我们可以展望未来的数字娱乐不仅被消费而且可以被互动,比以往更具吸引力和包容性。
3.CoDi如果推向前台,将带来什么影响?
很明显,CoDi如果推向前台,将改变目前人工智能领域的格局,加快各互联网大厂在大模型方面的竞争。之前openAI的领先并没有给各互联网大厂带来太多压力,因为openAI不会威胁到它们的一亩三分地,但微软CoDi的迭代和走向前台将使它们感到危机,从而加快各自大模态的训练,而多模态大模型作为AI的制高点,必将成为大厂们的必争之地!
总结,AI的下半场将是多模态通用大模型的竞争。算力端、应用端值得重视!