🚀重大突破!视频生成破局之作发布,Transformer升级引领大模型新浪潮🚀 【事件】12月12日,李飞飞的斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。这是一个在共享潜在空间中训练图像和视频生成的,基于Transformer的扩散模型。 研究者通过使用因果编码器为空间和时空联合生成建模量身定制的窗口注意力架构,在已建立的视频和图像生成基准测试上实现了SOTA,而无需使用无分类器指导。另外,团队还训练了三个模型的级联,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒8帧的速度,生成512 x 896分辨率的视频。 【点评】Transformer是高度可扩展和可并行的神经网络架构,是目前AI 大模型最主流的架构。这种理想的特性也让研究界越来越青睐Transformer,而不是语言 、音频、语音、视觉、机器人技术等不同领域的特定领域架构。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。 李飞飞团队采用基于 Transformer的潜在视频扩散模型 (LVDM) 方法,成功解决了Transformer原本缩放视频时成本较高的缺点,并降低了计算要求。其次这种方法还有利于联合训练,其中空间层独立处理图像和视频帧,而时空层致力于对视频中的时间关系进行建模。团队此次的方法进展加深了Transformer架构的应用范围和可延展性。 我们建议重点关注基于Transformer架构搭建技术的上市公司:
1)汉王科技:公司的Transformer技术可以用于文本的自动撰写和生成,例如新闻标题自动撰写,以及机器写作等;
2)拓尔思:旗下拓天行业大模型采用 Transformer 技术架构,参数量高达上百亿,且支持多任务处理,一个模型可以同时支持成百上千种任务;
3)当虹科技:公司基于Transformer 注意力机制以及去噪扩散技术,成功研发了众多跨模态文本、图像、视频的 AIGC 生成技术;
4)孩子王:公司KidsGPT智能顾问是基于transformer神经网络开发的GPT大模型,具备AIGC的能力,包含文字生成、图片生成、动态图片、音乐生成等功能。 风险提示:技术研发进展不及预期