视频资源相对来说,也有利于创作生成,但是有些视频属于资料级,国外要喂给AI资料,是全网爬虫,据说收集的资料以PB记,暂时也不好说对现有的影视版权视频类公司是多还是空。
貌似很多资金把人工智能中文语料,和数据资产入表弄混了。
数据资产入表之前有炒过,资金因此形成了一部分肌肉记忆。
很是显而易见的是,简*中人工智能大模型训练所需的语料,并非所有的“数据”,比如有些企业的是销售数据、客户数据等。
个人认为:能够被用于简*中人工智能大模型训练、标注的数据,应该包括(但不仅仅包括)中文网站/网页/资讯、出版物(对应出版行业有知识产权个股)、中文图片、中文视频、行业性质的内容/科普/说明书/问答/百科/资讯等等……
但不包括不拥有内容版权的公司、不包括营销类运营类的数据(比如运营商的用户数据,淘宝的用户数据等)。