一、海天瑞声强势新高、中文在线机构持续买进;说明市场认为国内大模型急需大幅增加中文语料训练投入……
二、简中大模型要追赶CHATGPT!离不开算力和中文语料!
但是简中大模型不是全部,多模态简中大模型才是终局!所以也离不开简中语境的视频料、图片料!
看好尚处低位、预期差极大的两个分支:视频版权运营龙头S捷成股份(sz300182)S 捷成股份与S视觉中国(sz000681)S 图片版权运营龙头视觉中国!
二、
1、捷成股份:以下文字来源于捷成股份2021年年报
公司以“新媒体版权运营及发行业务”为战略核心,构建以“版权”为出发点、“重发行”的产业链。新媒体版权运营行指基于互联网技术,对电影、电视、动漫、综艺等数字版权内容进行整合、分销、发行及运营。行业以影视版权内容为核心,围绕节目和内容向上下游衍生出了动漫、电影、电视等影视内容及相关发行、宣传、推广、放映等环节。
2、视觉中国:以下文字来源于视觉中国2021年年报公司拥有4亿张图片、3000万条视频和35万首音乐等可销售的各类素材,是全球最大的同类数字版权内容平台之一。目前公司服务超过全球195个国家的内容创作者和传媒出版、品牌企业、创意机构等客户;并与Getty Images等国内外近300家专业版权内容机构建立紧密合作关系。
视频资源相对来说,也有利于创作生成,但是有些视频属于资料级,国外要喂给AI资料,是全网爬虫,据说收集的资料以PB记,暂时也不好说对现有的影视版权视频类公司是多还是空。
貌似很多资金把人工智能中文语料,和数据资产入表弄混了。
数据资产入表之前有炒过,资金因此形成了一部分肌肉记忆。
很是显而易见的是,简*中人工智能大模型训练所需的语料,并非所有的“数据”,比如有些企业的是销售数据、客户数据等。
个人认为:能够被用于简*中人工智能大模型训练、标注的数据,应该包括(但不仅仅包括)中文网站/网页/资讯、出版物(对应出版行业有知识产权个股)、中文图片、中文视频、行业性质的内容/科普/说明书/问答/百科/资讯等等……
但不包括不拥有内容版权的公司、不包括营销类运营类的数据(比如运营商的用户数据,淘宝的用户数据等)。