我觉得GPT4的底层逻辑不是输入的形式变化,而是输出结果的变化和整个生产的运算逻辑。现在市场认为GPT4是由单纯的文本输入扩充为可以输入音频、图片、视频,我认为这是不对的。举个例子,chatgpt最本质的功能是我输入文本然后输出文本,如果我输入文本,输出的是图片或者是视频,其实从本质来说这就是一个多模态。具体展开我输入一段文本,生产了图片,可能是模型根据文本内容识别去搜索海量的图片生产的;也可能是文本识别搜索更多的视频,从视频截取符合的一帧生产图片,很明显后者的处理逻辑比前者更加高级,那么如果我输入一段文字,模型既结合了文本,也结合了图片,更结合了视频,同时运用了三种不同的格式最后给出我一个答案,不管这个输出的形式是图片还是视频,或者是文字,这都是运用了多模态的能力。所以,基于这个底层逻辑,AIGC才是多模态最终的归宿,特别是生成视频。而有生成视频需求的场景及未来空间如下图:
那么根据国内现状,我们需要挖掘的方向应该有:
一是百度文心模型助力的VidPress。(没有搜到任何相关的合作上市公司,可惜!)
二是快手和抖音平台的御用剪辑软件:目前,字节跳动的视频编辑工具剪映,以及快手的云剪,都已上线图文成片、文字转视频的功能。用户只需输入几个关键词或一段文字,AI就能自动搜集素材剪辑出一段视频片段。(也找遍了互动易,韭菜,天眼查,都没有找到相关上市公
三是影谱科技。
网达软件也有相关概念。