近期有媒体报道称,百度正在加紧训练文心大模型4.0,或将在10月17日百度世界大会上发布。据透露,目前这款基础模型已在理解、生成、逻辑和记忆四大方面有巨大突破,在逻辑推理、代码、数学等方面的进步水平明显。另一组引人注意的信息是,文心大模型4.0的推理成本相比文心大模型3.5增加很多,有传闻是8-10倍,也有说法是至少翻了10倍。
如何理解大模型的推理成本?其训练成本和推理成本的关系是什么?如果百度文心4.0推理成本真的至少翻了10倍,那么大模型的可持续发展之路在何方?这些问题无疑为这场科技竞赛增添了更多看点。
01
推理成本激增
什么是推理成本?通常意义上,它指的是大语言模型训练完成后在线为用户提供生成内容服务时产生的成本,模型的每一次“思考”和“输出”都会产生资源消耗。
推理成本由质量和数量两部分构成。一方面,在质量侧,需要优秀的算法和技术实力储备作为支撑,其背后往往意味着专业的算法工程师和数据科学家团队的支持;而在数量侧,“暴力计算”所依赖的计算资源也是重要因素。
GPU“堆料”能不能解决所有问题?
应该说,在过去的一段时间是可以这样认为的。不过,目前随着模型网络结构的复杂化、参数规模的巨量化,线性的基础设施投入所取得的边际收益正在降低。
对于技术研发能力不足的大模型厂商而言,由于AI芯片价格的持续高企,“堆料”逻辑是死路一条,并必将被市场淘汰。而推理成本本身,也是因不同的开发商而异的。
02
“中文天才”已就位
在市场中,有实力的企业通常愿意雇佣名牌大学的高等生。在大模型领域内,这个规律同样适用。
目前,行业里已出现多种为大模型生成内容付费的使用方式,不过根本上,遇到刁钻或时效性问题时,大模型给出的结果仍然效果不甚理想。一方面,这是由于中文特有的复杂性决定;另一方面,也是用户激增带来的短期算力不足所导致。
实际上,此前行业所提及的“训练成本”和“推理成本”并不能等同。
一般而言,训练GPT-3等级的大模型的成本约为140万美元,这也是几个月前人们对大模型成本测算的核心依据,但GPT-3迭代到3.5、GPT-4后,大模型的成本增长是非常惊人的。对于一些私有部署的模型而言,其模式是在已经训练好的模型进行输出,成本相对较低。但这种模式只能满足特定需求,并不适用于开放市场。
目前,考虑到在线推理场景,则更需要处理大规模数据,成本随之被推高。
根据海外最新研究《The Economics of Large Language Models》,可以有如下估计: 每个 token(1000 token 约等于 750 个单词)的训练成本通常约为6N(N为参数的计量单位),而推理成本约为 2N,也就是说推理成本大约相当于训练成本的三分之一。但随着模型上线部署后使用量的增加,推理成本可能远超训练成本。
在国外,大模型的付费是大势所趋。其中以ChatGPT专业版为例,其版本所提供的用户体验与免费版差别很大。当然,这也有助于大模型向着健康正向、持续发展的角度进步。
有媒体估算过,使用云计算服务(以AWS为例)调用ChatGPT的能力,每处理一个输入长度为50字、输出长度为1000字的问题,大约需要消耗0.00014611美元的云计算资源。即用1美元可以向ChatGPT提问约6843个问题。
据推测,文心4.0的推理成本将比3.5版本上升10倍。不过,其带来的好处也是显而易见的,那就是相当于为每个普通人都带来了“高知高学”的AI助手。
03
中文大模型逐渐弯道超车
应该说,2023年是属于“遥遥领先”的一年。在众多网友的观感中,这个词汇除弘扬国产技术实力外,也有一些趣味因素在其中。
中文大模型是否能够“遥遥领先”?这是十分令人期待的。
严肃些说,中国需要自己的中文大模型。可以看到,中文大模型的崛起已在日程之上。在OpenAI的GPT系列活跃量连续下滑之际,诸如百度文心一言等产品的增长却与日俱增。应该说,从落后再到领跑,在过去的几个月间,中文大模型打出了一场漂亮的逆袭战。
中文大模型的优势是,它在语义理解上更加准确,在文化背景差异上也几乎没有代沟。如果当我们把视角放在科技创新、产业升级等大背景下,中文大模型所承载的知识量或将再次刷新人们的认知。
应该看到,中文大模型也是“国货”的一种,它不仅是高新技术领域的突破,也可被看成一种对外名片和集体记忆。
一个好消息是,目前据已知的讯息,百度文心大模型4.0已进入小流量测试阶段,其参数量大于所有已经公开的LLM(大语言模型)。
值得注意的是,该款产品是国内首次使用万卡规模AI集群训练的大语言模型。借助百度飞桨的深度融合,它将大幅超越前作。作为国内对标“GPT-4"的产品,它的问世将是令人激动的。
有媒体爆料,百度文心大模型4.0正在加紧训练,已经接近可发布状态,或于10月17日百度世界大会发布。