有必要科普一下科普一下中文语料基础知识,大家稍懂一点就可以了,以防被套路。
不想浪费时间的拉到最尾看结论就行了!
一、2月下旬人工智能第一波大回调时,到处充满了“哪次炒作过后一地鸡毛……”的声音。但当时的题材是完全未兑现的,所以一直看好算力、大模型产品两个分支。
二、20230316至20230403这段时间,算力的两大方向(服务器、光模块)基本已基本充分炒作并挖掘到了存储、连接线等旁支。而大模型产品则进入逐渐升温、并已进入高潮期。
那么内地简中大模型有哪些方向和标的呢?
方向1:直接推出或有能力推出内地简中基础大模型的企业,以云从科技、三六零为核心。包括阿里、华为、腾讯、百度、字节等!(备注:下图来自韭菜投研贴子)
方向2:有行业积累,能抢先卡位行业大模型的企业。20230403开始挖掘。比如医疗信息化、金融科技等领域,已经炒过几只了。
方向3:简中数据。包括文学(如阅读平台公司)、门户网站(xhw/rmw)、视频版权图片版权等。个人认为最重要的是专业收集并经营简中数据资产的企业(拓尔思、开普云)
下图是富国基金曹晋对数据资产在这一轮人工智能产业革命中的看法,各位见仁见智了。个人还是很认可的。
关于简中数据,市场炒作热度比较高的有过中文在线、拓尔思、生意宝等几只。
接下来,是这贴子的重点。普及下简中数据资产某个基础知识:
我们来看看这个:(分别出自互动易、和调研记录公告、和年报)。
和这个:
还有这个:
相信愿意看贴和讨论的人已经看懂了。
1300亿?他为什么不告诉我单位?(如果哪位同学看到有带单位的数字麻烦留言告诉我一下),看来我们只能自己推理了
那么是相当1300亿个汉字,还是1300亿条?或者是1300亿GB。
我们假设单位是GB。
这个东西要有非易失存储器来存储吧,简单说类似硬盘(当然个人用与云服务器上用的稍有差别,但也大差不差了),来看看京东上硬盘价格。
稍有个印象了。1T大约一两百块钱吧。
如果是1300亿GB,那就是1300亿/1024 TB了。约等于1亿TB,没错吧。
这么估算一下,如果1300亿GB的数据量,光存储它所用的硬盘成本就百亿级别了。所以我猜这种可能性是0。
不可能是1300亿GB。看来比较有可能的是1300亿条,或大约1300亿个汉字?一条信息和一个汉字大约10~100倍的差距,先按汉字量来估一下吧。
如果是大约1300亿个汉字的数据,那么是多大容量呢??
大学书上教过的吧:每个比特(Bit)为一字二进制码,一个字节(Byte)有8个bit;一个汉字2个字节(Byte)。
那么1GB=1024MB=1024*1024KB=1024*1024*1024B。所以1GB大约是10亿字节存储量
(0太多了,要是哪里弄混了,麻烦留言告知啊)
因为1TB约等于1000GB,所以1TB约有1万亿字节存储量,也就是能存约5000亿汉字!
考虑到简中语料不可能以最简洁的文字形式存储,比如要做成网页,或其它格式,但总体上仍是文字类型的资料,所以汉字资料形成文件大约会有2~10倍的膨胀吧。也就是说1TB大约能存500亿~2500亿汉字形似的文件了。
所以讲明白了??拓尔思的1300亿资料,如果单位是“字”,存储大约是1TB上下了吧!
那么,如果单位是“条”,大约是10TB~100TB。
四、接下来我要看看开普云,有多少简中资料。看这个吧,时间紧就不开它的官网截图了
中文语料训练最大预期差:40亿总市值的开普云!
.
是的,没看错。开普云有1.2PB。
1.2PB是多少??
是1200TB,没错吧。
所以,答案是什么?
我觉得结认是这样的:如果用于训练简中基础大模型的语料库的丰富程度与数据量正相关的话,那么一个市值280亿的股有大约10~100TB的数据量。而开普云40亿市值,有1200TB的数据量。
再说一遍,我也有拓尔思,因为市场认可它。我不是踩拓尔思,我只是科普基础知识。