但别忘了最重要的一点,多模态的AI模型训练是需要原生的图片和视频数据的。
你总不能只用AI生成的图片去训练AI,这是荒天下之大谬,这样训练出来的只能是跟现实完全脱节的智障模型。。。。
先来看视觉中国涨停当天的一份机构研报,再次强调,视觉中国炒的是多模态的原生数据!!海量原生图片版权稀缺标的,舍我其谁!
大模型训练的下一站:多模态数据
事件:1. openai融资成功(估值接近300亿美元),微软算力重新整合,逐渐摆脱英伟达CUDA桎梏。
2.openai、微软解决算力后重启gpt5训练,根据已有信息披露,gpt5训练所用数据是多模态数据比如图片(openai的Image Intelligence,微软的project Adam,stable diffusion效果惊艳原因)视频等; 向量数据库公司融资火爆也可佐证。
3.受监管谈话后,openai声明不再使用用户数据进行训练(文本数据已达到足够智能程度)。
国内大模型使用数据依然是文本数据。因为训练度不够,各家大模型仍然没体现足够的差异化。因此短期内语料优质公司(如传统的出版公司,互联网等拥有优质数据的平台公司)依然有足够向上的动力。
中期映射路径。国内大模型文本训练到接近GPT4的时候会转向多模态数据训练。推荐拥有海量图片视频的平台公司和有能力拿到政府数据的公司。视觉中国(图片)、广电系(华数传媒余智护杭项目、未来社区在线项目等)
以下是GPT-4对于视觉中国这类公司的价值分析!非常重要!
GPT-4明确指出视觉中国这类拥有大量原生多模态数据的公司价值会被放大!!下面是公司的最新一则互动信息,看清楚了!公司全面拥抱AIGC,并且已经上线了多款应用!
希望这篇帖子能为视觉中国的稀缺逻辑正名,市场一定会纠错!