1、AI是风口产业之一。算法、算力和数据是AI发展的关键要素,训练数据是算法模型发展的基础。当前大部分AI模型如图像识别模型和语音识别模型等的训练都需要使用打过标签后的训练数据。海天瑞声成立于2005年,主要就是从事训练数据研发设计、生产和销售,其中定制化服务约占50%。
2、数据的标注为体力活,对学历要求低,标注人员等学历以初中、中专、高中为主,大专以上占比不到3%。但海天瑞声并不直接招聘员工从事数据标注。数据标注公司分为三个梯队,第一梯队为海天瑞声、龙猫、标贝等,可交付范围广,技术能力强,价格高,并且拥有有版权且标注好的数据库;第二梯队为笑猫科技、点我科技、慧数声图、梦动科技等,专注于某几个领域的标注和采集业务、价格低,交付质量稳定。第三梯队的特征非常明显,主要分布地区是河南、山东、山西、河北、东北等城市,并且从业人员学历低,标注人员等学历以初中、中专、高中为主,大专以上占比不到3%,主要的业务来源是从第一梯队公司接任务来消化。
3、海天瑞声是亚洲乃至全球最顶尖的数据供应商之一,客户包括微软、亚马逊、阿里巴巴、腾讯、百度等国内外 500多家知名企业,拥有近760多个可授权使用的大型工程化数据库,涵盖160多种语言或方言,语音数据存储量高达20万小时,同时,海天瑞声也是目前国内唯一有能力提供稀有语种数据服务的供应商,包括北朝鲜语、希伯来语、加泰罗尼亚语、阿拉伯语、捷克语、波兰语等。
4、海天瑞声的员工数量和财务数据证明这家公司并不大规模依靠自有人力。据最新财报数据显示,公司正式员工仅151人。毛利率持续5年保持在65%以上,净利率也基本保持在30%以上。若给予22年业绩30倍估值,合理股价为70元左右,当前市值偏高。