数据资源价值几何?
AI大模型需要的参数量和数据量非常庞大,以ChatGPT为例,它最初的GPT-1参数量只有1.17亿,到了GPT-3其参数规模就达到了惊人的1750亿。如今,人工智能模型体量已跃升至“万亿级”规模。
“人工智能模型体量已跃升至万亿级参数规模,对于数据资源需求非常庞大。大模型开发需要用于预训练的海量非结构化数据、人机协同生产的数据以及知识库数据集。”谢后勤认为,数据体现在立足超大规模、覆盖所有领域的数据集进行训练,为了能保障数据的质量,又必须通过清洗与标准来强化数据的真实性、准确性、完整性与时效性。
AI大模型的发展也带火了数据资源板块。同花顺数据显示,4月11日,文化传媒板块上涨4.89%,高居行业板块涨幅榜首。
掌握核心数据的企业成为市场追逐的目标。4月10日,中文在线在互动平台回答投资者提问时就表示,“国内多家模型公司正就采购公司中文数据进行合作磋商。”
在卢言霞看来,“AI大模型的核心之一就是基于海量数据资源的训练。面向什么场景,就需要什么数据,而且需要的还是海量的数据。”
中文在线还表示,“公司拥有海量的正版内容及自有内容创作生态作为数据和生态支撑,与优秀的模型技术公司共同探索AIGC技术在文学作品创作领域新的发展方向并进行商业化尝试,包括但不限于AIGC辅助创作、文本自动生成,同时共同探索利用AIGC技术实现漫画、动画等可视化作品的创作或辅助创作业务,从而实现降本增效并创造出具有更多可能性、创新性的作品。”