Ai训练高质量数据集的王者: 海天瑞声。
语言模型对训练数据量提出更高需求,在大模型中,模型参数量大小和训练数据量应该以大致相同的速度增长。
"大模型普遍训练不足的问题: DeepMind 的最新论文中审视了当前的模型发展,发现普遍存模型的大小与训练数据量不匹配。因为在过
去,业界普遍认为大模型表现和参数量高度相关。但在实际训练中,算力是对模型最大的制约因素,模型参数不可能无限增长。.参数量与数据量应匹配:在算力资源有限情况下,如何匹配模型参数量和数据量使得模型表现达到最优,是非常重要的问题。" DeepMind 最新的研究成果表明:对于固定的算力资源,模型参数大小和训练数据的大小是对应的。
1) OpenAl 过去的工作发现,模型的尺寸应该会比训练数据大小的增加更快。
2) DeepMind 新研究发现,模型的尺寸和训练数据的数量应该以大致相同的速度增长。
在最优性能曲线中: DeepMind 的 Chinchilla (700亿)模型,利用原先4倍的训练数据量,获得了参数量和性能的最优匹配。可以看到 Gopher (2800亿)、 GPT -3(1750亿)、 MT - NLG (5300亿)等模型的训练量明显不足,造成了对算力的浪费。
对于大型语言模型而言,数据质量可能更为重要。数据质量包括数据准确度、信息含量以及数据类型的多样性等。
.多年前谷歌提出的 TS 预训练模型,使用其专门构造的C4数据集( Colossal Clean Crawled Corpus ),该数据集是从 Common Crawl 网
站上抓取数百个千兆字节干净的英文文本,从而使得模型训练后,性能有较好的表现。除了构造高质量、干净的数据集外,对不同质量的数据在训练中赋以不同的训练占比也是提升训练效果的方法。例如, GPT -3中数据集包括 Common Crawl 在内的五类数据,但该模型并非根据数据量大小赋予同比例权重,而是将质量较高的维基百科数据在训练集中给予更大的单数据量占比。
海天瑞声是中国语音类基础数据服务领域的头部企业。根据艾瑞咨询出具的《2020年中国 AI 基础数据服务行业研究报告》,海天瑞声在中国语音类基础数据服务领域企业中营收份额占比排名第一。按数据类型划分,中国基础数据服务行业的市场需求可以分为语音类数据需求、图像类数据需求和自然语言处理类数据需求。现阶段国内基础数据服务商以提供图像类数据和语音类数据服务的公司为主。图像类数据业务内容涉及人像数据、 OCR 数据、自动驾驶数据等,百度众包在图像类基础数据服务领域的营收份额占比最高。而提供语音类数据产品和服务的供应门槛高于图像类数据,业务内容包含语音识别数据、语音合成数据等,海天瑞声在语音类基础数据服务领域的营收份额占比最高。
海天瑞声是我国最早进入基础数据服务行业的企业之一。自2005年成立以来,海天瑞声一直积极钻研核心技术、积攒行业经验,始终致力于为产业链上的各类机构提供算法模型开发训练所需的数据集,已成为我国领先的训练数据专业提供商。通过多年的技术研发和业务实践,公司积累的核心技术横跨基础研究、平台工具、训练数据生产等三大领域,贯穿训练数据设计、原料数据采集和加工以及质量检测等应用环节,已成为公司为下游客户提供高质量训练数据产品、高效率训练数据定制服务以及高水准训练数据相关的应用服务的重要支撑。
海天瑞声是中国基础数据服务行业的头部企业,市场份额位居行业前五。根据艾瑞咨询发布的《2020年中国 AI 基础数据服务行业研究报告》(以下简称"《行业研究报告》"),2019年,以海天瑞声、百度众包为代表的国内基础数据服务行业前五大企业的市场份额为26.2%。