异动
登录注册
英伟达MOE最新大模型模型有一个重要突破点:合成数据
放牛班
追涨杀跌的老韭菜
2024-06-17 09:47:43

 

 
【西部郑宏达】英伟达在昨天6月14日发布了名字叫Nemotron-4340B的系列大语言模型,并公布了技术报告。这个模型有一个重要突破点:合成数据
在模型alignment,98%的用到的数据是合成数据(supervisedfine-tuningandpreferencefine-tuning)。这就厉害了。这表明哪怕几乎全是合成数据,也可以做大模型的微调和对齐。
也可以用这个模型来生产合成数据,那么在金融、医疗、教育这些领域的应用将会打开。(合规合法拿到这些领域的数据不容易,现在好了,不用拿了,直接用合成数据了)。所谓数据优势,可能在LLM模型领域不重要了。
【人工智能第一团队|民生计算机】从英伟达最新大模型梳理合成数据的发展现状
今日,英伟达发布开源大模型Nemotron-4 340B,通过98%合成数据实现在文本单模态与GPT4相媲美,通过其论文和阿里研究院的论文我们重点提炼两个问题:
1)合成数据的质量是否能够媲美真实数据?
2)合成数据训练是否能够对现有训练语料体系产生冲击?
论文仅证明了在对齐领域合成数据质量超过真实数据,对于现有训练语料体系冲击有限,但论文认为合成数据前景光明
大模型的训练流程主要为预训练→微调→对齐,对于数据的需求量阶梯式下降,阿里研究院也明确提出合成数据在预训练领域目前占比不高但潜力巨大。
英伟达该模型在预训练阶段使用9T Tokens数据,而对齐阶段仅使用1000K(98%为合成数据)数据。
英伟达预训练数据梳理:
英语自然语言(70%):由不同来源和领域的精选文档组成,包括网页文档、新闻文章、科学论文、书籍等
多语种自然语言(15%):包含53种自然语言,由单语语料库和平行语料库中的文档构成。
代码(15%):包含43种编程语言。
免责声明:基于公开资料信息整理,可能存在翻译错误、信息滞后或更新不及时、不全面的风险;任何情况下,不构成投资建议。
联系人:民生计算机吕伟/白青瑞
海天瑞声是我国领先的训练数据专业提供商。自2005年成立以来,公司致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。
公司所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智能家居、智慧城市等多种创新应用场景。其中智能语音为公司的优势领域,截至2022H1,产品线已包含190个主要语种及方言。
公司的产品和服务已获得字节跳动、阿里巴巴、腾讯、百度、科大讯飞、海康威视、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。
据人工智能研究机构epoch的预测,语言数据可能在2030-2040年耗尽,其中高质量的文本训练数据甚至可能在2026年耗尽。高质量数据的稀缺性导致数据采集成本水涨船高,许多公司面临着数据获取困境。
对于许多用例来说,正确的数据根本不可用,或者获取数据非常困难且成本高昂。在创建AI模型时,数据缺失或不完整就无法满足需要。合成数据提供了一种解决方案,企业可以用合成数据来增强其训练数据,以填补所有潜在用例和边缘用例,节省数据采集费用,或满足隐私要求。随着计算能力的提高和云数据存储选项的崛起,合成数据比以往更容易获取。
同时,随着中国普通个体关于隐私保护的权利意识在觉醒;另一方面,法律层面也不允许企业肆意滥用各种隐私数据。企业不再可以“肆无忌惮”地使用真实数据,孕育了中国合成数据发展的土壤。
根据美国AI研究机构Cognilytica的数据,2021年合成数据市场规模大概在1.1亿美元,到2027年将达到11.5亿美元。Gartner预测,到2024年用于训练Al的数据中有60%将是合成数据,到2030年AI模型使用的绝大部分数据将由人工智能合成。
什么是合成数据?
合成数据(Synthetic Data)是指通过数学模型、算法或随机过程生成的数据,这些数据在某些方面与真实数据相似,但并不是从真实环境中直接采集的。合成数据通常用于数据预处理、模型训练、数据集增强等场景。
合成数据有哪些优势?
  • 可控性
:合成数据可以根据需求进行定制,例如调整数据规模、数据分布、样本数量等,使得数据更符合特定任务的要求。
  • 安全性:
在某些敏感领域,如医疗、金融等,直接使用真实数据可能会涉及到隐私和安全问题。而合成数据可以避免这些问题,同时也能达到类似的效果。
  • 成本低:
合成数据不需要花费大量时间和资源进行采集和数据标注,因此成本相对较低。
如何生成合成数据?
合成数据的生成方法有很多种,例如基于数学模型的生成、基于机器学习的生成、基于随机过程的生成等,每种方法都提供不同级别的数据准确性和类型。
  • 统计分布
在这种方法中,首先分析真实数据以确定其潜在的统计分布,例如正态分布、指数分布或卡方分布。然后,数据科学家从这些已识别的分布中生成合成样本,以创建在统计学上与原始数据集相似的数据集。
  • 数据脱敏和扰动
另一种常见的合成数据技术是对真实数据进行脱敏和扰动,包括去除或替换真实个人身份和敏感信息,以保护数据的隐私。例如,可以使用数据加密、数据模糊化或数据扰动等方法来处理真实数据,生成合成数据。
  • 基于模型
在这种方法中,训练机器学习模型以理解和复制真实数据的特征。经过训练的模型可以生成与真实数据具有相同统计分布的人工数据。这种方法对于创建混合数据集特别有用,混合数据集将真实数据的统计特性与其他合成元素相结合。
  • 深度学习方法
可以使用生成对抗网络(GAN)、变分自动编码器(VAE)等高级技术来生成合成数据。这些方法通常用于更复杂的数据类型,例如图像或时间序列数据,并且可以生成高质量的合成数据集。
深度学习生成技术有哪些?
  • 生成对抗网络
生成对抗网络(GAN)模型使用两个神经网络协同工作来生成和分类新数据。一个网络使用原始数据生成合成数据,而第二个网络则对该信息进行评估、特征化和分类。这两个网络相互竞争,直到评估网络无法再区分合成数据和原始数据。通过对抗网络生成的数据高度自然,可以密切呈现现实世界数据的变化,例如逼真的视频和图像。
  • 变分自动编码器
变分自动编码器(VAE)是基于原始数据的表示生成新数据的算法。无监督算法学习原始数据的分布,然后使用编码器-解码器架构通过双重变换生成新数据。编码器将输入数据压缩成低维表示形式,解码器根据这种潜在表示形式重建新数据。该模型使用概率计算来实现顺畅的数据重建。在生成具有变体的非常相似的合成数据时,VAE最有用。例如,可以在生成新图像时使用VAE。
  • 基于转换器的模型
生成式预训练转换器或基于GPT的模型使用大型原始数据集来了解数据的结构和典型分布。主要在自然语言处理(NLP)生成中使用这些模型。例如,如果基于转换器的文本模型在大型英语文本数据集上训练,它就会学习该语言的结构、语法甚至细微差别。生成合成数据时,模型从种子文本(或提示)开始,并根据所学的概率预测下一个单词,从而生成完整的序列。
产业应用实践如何?
具体到产业应用层面,合成数据先行应用于计算机视觉领域,例如自动驾驶、机器人、安防等应用场景。这些场景下的AI大模型都需要大量图像、视频数据来训练,但获取原始数据却相对较难。目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。
在金融行业,合成数据可以为金融机构在不提供敏感的历史交易信息的前提下,训练量化交易模型,从而提升获利能力。此外,合成数据还可以用于训练客服机器人,改善客户服务体验,为金融机构提供更智能、高效的客户支持。合成数据的应用为药物研发工作也提供了巨大帮助。通过合成数据集,可以在不泄露患者隐私信息的条件下训练相关模型,加速新药研发过程,发现潜在的治疗方法,提高医药领域的效率和准确性。
海外:
微软、谷歌、英伟达等硅谷巨头均在加速布局合成数据领域的相关业务。
英伟达自动驾驶仿真平台DRIVESim通过Replicator合成数据工具来缩小仿真数据与真实数据之间差异并提高场景泛化能力;谷歌利用AI生成的医疗记录来帮助预测保险诈骗;微软开发了可以生成合成和聚合数据集的开源工具SyntheticDataShowcase,并创建了合成人脸数据库;Meta于2021年11月收购了合成数据创业公司AI.Reverie。
其中也少不了自动驾驶汽车厂商们,早有布局,比如Waymo、Cruise、Aurora、Zoox等,都在合成数据和模拟方面进行了大量投资,并将其作为其技术堆栈的核心部分。例如,2016年,Waymo生成了25亿英里的模拟驾驶数据来训练其自动驾驶系统(相比之下,从现实世界收集的驾驶数据仅为300万英里)。到2019年,这一数字已达到100亿英里。
合成数据已经自成赛道,一批瞄准合成数据为主攻方向的数据新势力集中涌现,出现的第一批合成数据初创公司瞄准了自动驾驶汽车终端市场。其中包括Applied Intuition(2022年估值180亿人民币,入选全球独角兽榜)、Parallel Domain和Cognata等公司。
合成数据与数据标注之间存在着密切的关系,合成数据能够减少对真实数据标注的需求,提高数据获取的效率,同时也能在一定程度上解决隐私问题。以下是合成数据与数据标注的关系以及它们在AI模型训练中的应用:
合成数据与数据标注的关系(海天瑞声)
  • 合成数据减少数据标注需求:合成数据可以在生成时自动标记,大大减少标记数据所需的时间成本
  • 合成数据在数据标注中的应用:合成数据生成工具可以预先标注为机器学习使用案例生成的数据,提供结构化的标注数据
合成数据在AI模型训练中的应用
  • 提高数据获取效率:合成数据可以快速生成,几乎不需要人类标注,且不需要进行繁琐的数据清洗和预处理工作
  • 解决隐私问题:合成数据不存在隐私问题,因为它从一开始就不是基于真实的人或事件
合成数据与真实数据标注的比较
  • 成本效益:合成数据的主要成本是前期的建模费用,但在建模完成之后,可以生成无限多的标注数据,节省了大量的成本
  • 数据质量和真实性:虽然合成数据可以生成带有标注的数据,但其质量和真实性可能无法完全模拟客观世界,需要根据具体应用场景进行评估
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
海天瑞声
S
浩瀚深度
S
昆仑万维
S
润和软件
工分
2.50
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据