根据开普云与中文在线的公开资料可求证:开普云可用于AI训练的语料库居然比中文在线还大。具体数字看后面标红部分!
一、AI产业变革是金山,算力-服务器、算力-光模块、算力-存储本质都是AI产业变革期的铲子股;简中语料是与算力并列的锄头股!
二、境外大模型在境内政策空间、发展空间均有限!论据不可描述。
三、境内简中通用大模型、简中行业模型各有倚重、发力点。目前百度、360、华为、商汤、昆伦万维的大模型均已露面。随后,腾讯、字节、京东、科大讯飞、云从……等也将发布相关产品。
四、近3个月来,英伟达芯片、云端光模块、AI服务器等算力硬件基础设施抢购此起彼伏,模型也陆陆续续发布了。毫无疑问,接下来各模型厂商(特别是通用大模型厂商)要着手抢购通用语料库。
五、十几家的简中大模型厂商,而能提供超大容量简中“通用”语料库的厂商屈指可数。那么问题来了,简中通用语料库厂商与大模型商的终局是粥少僧多还是语料商一女多嫁?如果某些大厂与语料商签排他性购买协议,是否合理合规合法?
六、中文在线语料库规模10万亿字、文学数字内容510万种,驻站作者440万名……
开普云语料库规模1.2PB,覆盖境内80%以上的省级政府,60%以上的中直机关和国务院组成部门,60%以上的市级政府。
中文在线语料库规模计算如下:
10万亿字=20万亿字节=20万亿/1024KB=20万亿/1024/1024MB=20万亿/1024/1024/1024GB
=20万亿/1024/1024/1024/1024TB=20万亿/1024/1024/1024/1024/1024PB=0.02PB(我应该没有数错0)
考虑到汉字编辑成文件要增加成文冗余,按1:2.5扩倍。那么存储10万亿汉字类型的文件,大约要0.5PB。
开普云简中语料规模为1.2PB!见官网!
六、开普云存在巨大预期差,无外乎几个因素:
1、3月27日开普云在官网发布AIGC战略规划。由于秀了一把数字人技术,导致市场资金把它认为是一个“数字人”相关分支的跟风股。而忽视了《战略规划》中阐述的已有资源、优势;及内容。这是市场在对开普云的题材定位上出现了偏差。
2、开普云是科创板股,流动性差于创业板。在无主导机构强推情况下,流动性不高。这也正是它股价远低于它应有的涨幅的根源。
603888xhw因为是一个标志性的政务资讯网站因此受益于简中语料训练分支的重估,4月以来累计50%涨幅。那么接下来的问题是:一个xhw网站3天2板的幅度?那么开普云相当于收集网罗了80%以上境内所有政务资讯网站近8年的所有内容,该如何重估?