异动
登录注册
上海将围绕战略性语料资源重点发力 大模型持续迭代下有望催生进一步需求
西域多宝
2024-07-08 07:55:10 上海市
上海将围绕战略性语料资源重点发力 大模型持续迭代下有望催生进一步需求 人工智能的发展中,算法、算力和数据是三大关键要素。今日重要性:✨ 据澎湃新闻报道,上海市政府副秘书长庄木弟7月6日在2024世界人工智能大会语料主题论坛上致辞时表示,语料数据是大模型训练的重要“燃料”,高质量的语料对于大模型在各行各业的应用十分关键,有助于大模型更好地适配实际应用场景,加快实现人工智能赋能千行百业的愿景。 东吴证券指出,人工智能的发展中,算法、算力和数据是三大关键要素,其中语料数据决定大模型能力的天花板。高质量的语料数据为模型提供了丰富的训练素材,使算法能够学习和理解复杂的语言模式和语义结构。丰富、多样且准确的语料数据不仅提升了模型的训练 效果,还增强了其在实际应用中的表现。因此,语料数据在大模型开发中起到了决定性作用,是模型能力提升的关键基础。 国金证券表示,随着国内版权保护在立法、执法层面的不断完善,AI语料的价值将不断提升,同时大模型迭代下不断提升的语料需求进一步凸显了语料的重要性,且高质量视频语料公开获取难度大于文字语料。 公司方面,开源证券表示长文本训练或拉动知识、文学类语料需求,多模态训练或拉动图片、视频类语料需求,受益标的包括中文在线、同方股份、掌阅科技、中广天择、中原传媒、华策影视、捷成股份等。 中文在线:拥有超过60TB的高质量正版数据,涵盖文字、音频、视频等多种类型,与多家模型公司有合作。 中国科传:学术期刊和科技出版领域领先,拥有大量的学术相关优质内容储备。 中国出版:作为出版行业龙头,拥有丰富的作者、译者、内容资源。 中信出版:在大众出版领域领先,拥有众多权威学者、知名作家的新书版权。 掌阅科技:在文学和阅读领域拥有近300TB的内容储备,与多家内容厂商合作。 中广天择:旗下“淘剧淘”版权交易平台拥有大量优质电视剧版权。 华策影视:拥有大量影视素材,是国内最大的影视素材运营平台之一。 视觉中国:作为全球领先的视宽内容数字版权供应商,拥有超4亿张图片资源和大量视频素材。 同花顺:在金融领域拥有大量数据资源,问财HithinkCPT大模型预训练金融语料达到万亿级tokens。 上海钢联:在大宗商品数据服务领域拥有大量数据资源。 卓创资讯:在大宗商品信息服务领域拥有大量数据和信息。 生意宝:提供大宗商品价格大数据。 汇纳科技:在线下客流数据采集和分析领域拥有大量数据资源。 这些公司提供的高质量数据资源对AI模型的训练至关重要,可能对大模型的发展和应用产生积极影响。然而,股市有风险,投资需谨慎,以上信息仅供参考。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
中文在线
工分
2.52
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    07-08 08:34 四川省
    6666666666
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    07-08 08:20 辽宁省
    你真牛,自己给添加这么多股票
    0
    0
    打赏
    回复
    投诉
  • 1
前往