标的就是海天瑞声,第一波AI的龙头,目前还在相对底部躺着,没怎么动,下边暴力空间巨大。
先来几张海天瑞声的官网图片镇楼:
自动驾驶技术向 L3+发展,渗透率不断提升拉动 AI 训练数据需求。根据 IDC 数据统 计显示,我国 L2 级自动驾驶乘用车渗透率从 2021 年 Q1 的 7.5 大幅提升至 2022 年 Q1 的 23.2%,未来随着自动驾驶技术向 L3+发展,自动驾驶渗透率将不断提升。根据华经产业研 究院预测,到 2030 年全球 L2 级别自动驾驶渗透率将达到 57%,L3 及更高级别自动驾驶渗 透率将达到 10%。自动驾驶技术发展将极大带动训练数据需求。
车载传感器需求不断扩大,高级别自动驾驶技术对训练数据需求将显著提高。随着 L2、 L3 及以上自动驾驶渗透率不断提升,无论是视觉路线还是激光雷达路线,单车搭载传感器
的数量都将显著增长。奥迪威招股说明书显示,L3 级别自动驾驶单车传感器数量将达到 17-34颗。根据英特尔测算,L3+级自动驾驶每辆汽车每天产生的数据高达 4000GB,作为自 动驾驶技术应用落地的必要条件,数据采集、数据标注服务已成为支撑自动驾驶热潮必不 可少的一环。
根据英特尔计算,L3+级自动驾驶每辆汽车每天产生的数据高达 4000GB, 而根据美国兰德公司研究,自动驾驶汽车需要在真实或者虚拟环境中至少进行110亿英里的 里程测试,才能证明自动驾驶系统比人类驾驶员更可靠。 数据标注需求的成长拉动标注技术迭代,4D 点云标注技术逐渐成熟。基于 3D 点云标 注的基础上,通过对感知物体进行物体的追踪与运动属性检测,并加入时序信息,由此获
得 4D 点云标注信息。将当前已收集到的多维度、多角度的点云信息进行压缩,在提升现有 点云稠密度的同时,再进行物体检测可获得更精确的点云标注信息。
海天瑞声
公司积极布局智能驾驶业务,产品服务矩阵持续完善。公司于 2022 年上半年成立智能 驾驶事业部,并着重在智能驾驶数据标注平台上发力,结合业务实际需求和行业未来发展 趋势,精心设计与实现了多个功能的新增和优化,在图像标注、数据管理、供应链管理等
方面有大幅度提升,于 6 月发布了第三代智能驾驶标注平台,目前公司正在研发第四代智 能驾驶标注平台,推出后有望进一步提升公司的 3D 功能与数据服务能力。
算法迭代赋能数据标注的效率和准确度,平台化服务打开业务规模化成长空间。公司
的第三代智能驾驶标注平台,覆盖了自动驾驶场景下不同类型数据的标注工具,支持 3D 点云标注、3D 点云连续帧标注、3D 连续帧与
2D 联合的标注和 3D 语义分割等,还可以根 据客户的个性化需求对平台工具进行二次开发,在行业内优势显著。
公司持续提升平台自动化、智能化水平,以人机交互为核心出发点迭代产品服务。智 能标注平台在用户标注过程中会提供智能辅助以提高标注效率和准确度,例如平台包含的 “辅助构建物体脑补框”工具,可自动就同一个连续帧的前后几帧内容进行预测,并给出
参考。同时,一体化数据处理平台简化并统一了训练数据生产流程,模块式的项目生成和 管理方式,使得生产人员可以根据实际项目需求有机结合、灵活调整,有效提升用户采集
和加工数据的效率。
公司自研 MatrixGo 企业级 AI 数据标注平台。平台集成了丰富高效的标注工具、支持
点、检测框、属性等内容的标注和自定义连线、自动顺滑及填充等多种功能,具备强大的 工作流调度能力。平台可通过对自有及供应商团队及百万级众包资源进行资源整合,可支
持丰富场景海量数据的各种类型标注项目。
海天瑞声目前总市值仅55亿人民币,对标海外厂商的73亿美元估值,公司发展前景广阔
如果按之前老师们按计算器的方法,这不知道得补涨多少倍了
对标 Sacle.AI,基于 AI 辅助工具大幅提升数据标注效率 Scale.AI 创立于 2016 年,先后服务于 Waymo、Toyota、Lyft 等公司,为客户公司提
供用于机器学习的数据标注服务。公司于 2020 年 9 月和美国军方达成合作,拿下 9100 万 美元的大单,协助美国军方开发、更新用于训练人工智能的数据集。公司成立至今已完成 7 轮融资(2021 年 8 月融资金额未披露),总计融资 6.03 亿美元,最新估值达 73 亿美元。
贴一张券商的研报图:
最后是今天机构刚新鲜出炉的海天瑞声调研纪要,供老师们参考:
附调研内容:
问:公司定增项目中的数据生产垂直大模型主要是做什么的?是否是单纯针对数据生产而推出的大模型?
答:公司将采用全栈自研的数据生产垂直大模型,可辅助完成面向多个下游任务的数据设计与处理规则,形成包括数据清洗方案设计、指令方案设计、指令泛化与迁移、指令数据验证、多模态数据方案等在内的多项生成能力,以及在上述方案下的原始数据及标注成果生成能力。本项目的研发将服务数据生产垂直方向,应对未来数据智能进一步发展的方向。
问:怎么看《生成式人工智能服务管理办法(征求意见稿)》对人工智能数据服务行业的影响?
答:《生成式人工智能服务管理办法(征求意见稿)》的拟定,对于促进我国生成式人工智能技术健康发展和规范应用将发挥引领性作用。《办法(征求意见稿)》当中的第七条、第八条、第十七条对生成式人工智能产品所涉及的训练数据来源的知识产权、征得个人信息主体同意、数据的真实性、准确性、客观性、多样性等合法性要求提出了明确要求,明确生成式人工智能产品提供者应当制定清晰、具体、可操作的标注规则,须对数据的来源、规模、类型、质量等进行描述,并必须要提供人工标注规则,人工标注数据的规模和类型等方面信息。 基于上述要求可以看出,《办法(征求意见稿)》对预训练数据、标注数据的合规问题等提出了更加严苛和复杂的要求,预期会使得预训练数据获取及标注成本的增加,出于投入产出比考虑,未来大模型厂商或将更倾向于将预训练数据采集、强化学习阶段数据标注工作交由第三方专业数据服务商完成,通过专业服务商的规模化应用降低数据使用成本。据此,高质量、规范化数据标注供给及know-how输出需求预期会逐渐增加。
问:请问大模型向多模态发展后,是否会对公司业务产生正向影响?
答:大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。
问:很多大模型已具有自动标注能力,请问这些公司推出的自动标注功能会不会让公司的业务不存在了?未来会对公司业务影响有多大?
答:自动化数据标注一直以来都是数据服务行业的发展趋势,同时也是数据服务企业的核心竞争能力之一,自动化标注的核心不是完全替代人类,而是提高人机协作效率,海天瑞声近年来在研发领域持续加大投入,不断提升公司数据生产的智能化水平。
问:大模型发展迅速,贵司是否考虑接入、使用大模型以提高数据处理效率?
答:大模型的发展不仅进一步抬升了AI市场空间,同时也为人工智能训练数据服务的发展提供了更好的便利条件。例如,大语言模型可在部分场景/领域的设计环节起到辅助作用;视觉类大模型也已具备通用物体的预识别及标注能力,从理论上,可更好辅助完成视觉类图片的预标注。未来,公司会持续积极探索,将适配于公司业务领域的大模型技术与公司的数据服务全流程进行更好的结合,以更好提升公司综合数据业务能力。
问:公司如何看待合成数据这个技术?今后是否会对公司的业务产生不利影响?或者说公司是否对此技术有所关注并进行了相应的技术储备?
答:在数据重要性凸显且数据需求快速增长的时代,合成数据可以认为是人工智能行业发展到一定阶段的必然产物。数据合成技术可以作为数据采集的有效辅助,但也存在较强的局限性,降低真实世界各类特征的训练效果,因此目前仅可作为数据采集的一种辅助方式。从目前数据服务行业来讲,以计算机视觉场景为例,合成数据主要应用于某些高危的、罕见的corner case的模拟训练当中,但合成数据毕竟是由机器生成的虚拟数据,其数据质量以及真实性仍无法替代真实场景数据,因此按照目前的技术路线,绝大多数企业仍在使用真实场景数据进行模型训练。但公司会紧密关注合成数据技术的发展,根据最新的行业动态及时调整公司业务布局。
问:大模型预训练阶段很大程度用的都是无监督学习,无监督学习下,公司的业务是否会受影响,或者会产生哪些新的数据机遇?
答:大模型是人工智能技术新的发展范式,该技术路线下将衍生出新型数据需求。例如,预训练阶段,数据服务公司需能根据客户的大模型需求,完成对海量数据清洗方案的设计以及执行,通过清洗出高质量数据,帮助客户高效完成模型预训练开发;同时,预训练想要达到更高阶的通用学习效果,需要更为丰富的高质量数据来源,例如各类版权数据等,因此,能聚集更为丰富的版权类数据、并以工程化和规模化地方式向客户提供相应服务的数据服务商将具有更高的市场竞争力。 此外,为使大模型能力更趋近于人类,大模型还将在完成预训练的基础上,通过有监督微调以及基于人类反馈的强化学习,实现模型在特定方向上的优化迭代。上述两个阶段均需深度人工参与,同时参与上述两阶段的数据处理人员将被要求有更高的认知水平和专业能力,以更好指导机器完成高阶能力优化。 大模型时代实质上是一个海量数据的时代,随之将产生海量的数据需求,数据服务模式也将由传统的数据标注向获得海量高质量数据、以及更强的数据处理能力转变,这对数据服务商提出了新的、更高的要求。因此,能够前瞻性布局大模型数据服务能力的服务商将优先获得市场机会,建立先行的护城河。
问:请问目前公司在智能驾驶领域的建设情况如何?
答:在智能驾驶业务方面,公司进一步升级了智能驾驶的数据服务能力,推出了新一代智能驾驶数据处理平台DOTS-AD。新平台可支持更多场景、更多传感器、以及更前沿的自动驾驶感知算法需求,可以覆盖市面上主流3D、2D-3D融合标注需求以及更为前沿的数据处理能力(包括:BEV鸟瞰图标注、点云叠加标注等);同时,算法中台功能更加完善,2D算法准确率持续提升,3D算法功能逐步完善;此外,平台操作的友好度同比提升,助力人工标注效率的提升。
问:决定智能驾驶数据业务市场需求空间的因素有哪些?未来智能驾驶的数据需求如何?
答:智能驾驶数据业务的市场需求主要与三个要素相关:1)车厂的车型及传感器丰富度。通常来说,不同车型、不同传感器会有不同的硬件配置方案,继而需要不同的数据解决方案,因此车型/传感器等硬件配置的多样性程度将会直接影响所需数据解决方案的数量;2)量产车数量。量产车的数量决定了整个的训练数据需求基数的大小;3)智能驾驶级别的逐渐提升。智能驾驶级别和渗透率的提升决定了数据处理场景的种类和体量。
这三个要素对训练数据需求的影响是相互叠加的。公司预测,随着智能驾驶相关政策的推出以及单车成本的不断下降,智能驾驶的商业化进程将加速,在上述三个因素的共同作用下,数据处理需求将呈现指数级增长趋势。