异动
登录注册
多模态的场景应用---网达软件
佛系挖掘
全梭哈的萌新
2023-03-02 11:38:27

我觉得GPT4的底层逻辑不是输入的形式变化,而是输出结果的变化和整个生产的运算逻辑。现在市场认为GPT4是由单纯的文本输入扩充为可以输入音频、图片、视频,我认为这是不对的。举个例子,chatgpt最本质的功能是我输入文本然后输出文本,如果我输入文本,输出的是图片或者是视频,其实从本质来说这就是一个多模态。具体展开我输入一段文本,生产了图片,可能是模型根据文本内容识别去搜索海量的图片生产的;也可能是文本识别搜索更多的视频,从视频截取符合的一帧生产图片,很明显后者的处理逻辑比前者更加高级,那么如果我输入一段文字,模型既结合了文本,也结合了图片,更结合了视频,同时运用了三种不同的格式最后给出我一个答案,不管这个输出的形式是图片还是视频,或者是文字,这都是运用了多模态的能力。所以,基于这个底层逻辑,AIGC才是多模态最终的归宿,特别是生成视频。而有生成视频需求的场景及未来空间如下图:

 那么根据国内现状,我们需要挖掘的方向应该有:

一是百度文心模型助力的VidPress。(没有搜到任何相关的合作上市公司,可惜!)

 

二是快手和抖音平台的御用剪辑软件:目前,字节跳动的视频编辑工具剪映,以及快手的云剪,都已上线图文成片、文字转视频的功能。用户只需输入几个关键词或一段文字,AI就能自动搜集素材剪辑出一段视频片段。(也找遍了互动易,韭菜,天眼查,都没有找到相关上市公

三是影谱科技。

 

网达软件也有相关概念。

 


作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
网达软件
S
粤传媒
工分
1.96
转发
收藏
投诉
复制链接
分享到微信
有用 4
打赏作者
无用
真知无价,用钱说话
1个人打赏
同时转发
评论(3)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-03-12 08:14
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 逆行全责8801296
    自学成才的老司机
    只看TA
    2023-03-02 12:48
    粤传媒
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-03-02 12:23
    感谢分享!
    0
    0
    打赏
    回复
    投诉
  • 1
前往