阿里EMO是用音频驱动照片生成视频,给定一个人物肖像和一段语音,即可生成给定人物肖像输出给定语音的视频。与以往的对口型不同,包括了人物的神态和头部动作,十分逼真
。
具体演示效果可见https://www.jiuyangongshe.com/article/edit?type=long
可以让赫本讲故事,可以让蒙娜丽莎读课文,可以让AI美女来一曲(内心os:原来的AI美女只有静态图还好能顶,这直接真情给你唱歌谁顶得住啊。)
AI这么发展,三分钟打造一个心动女生太简单了。赫本面对面聊天,谁也顶不住。
这个应用思路好的点在于放弃了最难的四肢/手指等细节,用语言+肖像图(肖像图还可以用AI生成)生成视频,只做头部/面部动作生成(非对口型,而是生成完整视频)。这样避开了Sora在大画面上保持一致性、稳定性等等难点,只在一个点上形成突破,第一人称大头出镜类短视频完全颠覆,NPC无限逼真。
而这个单点的突破则是正好能直接进入生产力的,可以想见的应用如下——
1、短视频平台人物打造,虚拟人物+音频=视频,低成本无限产出
2、互动剧情游戏演员,直视对话轻松完成
3、部分影视剧、短剧人物大段台词特写镜头无需实拍,演员可以不用换头,也不用数1234567,利好流量爱豆
4、游戏NPC设计,灵活逼真
5、听歌时封面可以直接合成歌手演唱视频,沉浸式收听
6、黑暗向应用是诈骗等视频,直接视频通话都可能发现不了,防不胜防了
利好:互动剧情游戏、大量逼真NPC需求的游戏、短视频运营方、影音制作、影音娱乐平台
风险:论文阶段,产品未对外发布