异动
登录注册
国内AI大模型展望
剑阙
2023-03-26 14:12:32

- 嘉宾:某互联网公司AI大模型产品负责人

国内互联网大厂及AI厂商大模型进展和落地现状:

目前我们可以看到在这一轮ChatGPT所带来的语言大模型热潮,不但在全球领域,包括像OpenAI的ChatGPT、GPT1-4、Google 的LaMDA、PaLM以及 Meta AI 等。目前在海外的发展已经是非常火热。

国内发展情况:1)迎头赶上的趋势,大厂都在做积极投入,强势的应用也在积极酝酿中。包括昨天百度文心一言的发布。目前BAT、字节、华为等的国内大模型有很多令人期待的地方,比如21年年初发布的阿里通义M6大模型,是过千亿的中文参数语义大模型;去年10月发布的腾讯混元,也是破千亿的语言大模型,近日腾讯宣布要发布腾讯版的chatgpt,叫做腾讯混元助手。后续可能会在微信社交对话,广告广点通或者腾讯新闻内部的二方业务中有令人期待的落地。2)百度文心一言是国内首个语义大模型的终端应用,NLP技术上在国内处于第一梯队。昨天文心一言发布了关于数据层的信息、下游生态的展望与商业前景。相对处于先发优势地位。3)除了大型科技公司,包括二线厂商和start-up,比如玄机、360、京东(ChatJD)、AI四小龙(商汤、旷视)、国内高校或科研院所(复旦的MOSS、智源研究院悟道)都有比较好或者前沿的技术层投入。4)国内没有能直接对标chatgpt的应用,文心一言随着对公有云PaaS的调用,做付费的商用接口,下半年应用层的竞争格局会逐渐明朗。包括像创新搜索的业务场景,以及目前在海外很火热的应用产品,比如Jasper、微软基于GPT-4的office系列、Google的workspace。后续再国内应用层,比如办公、创作者工具、智能硬件、客服等领域会迎来强有力的竞争。

Q&A:

Q1:百度模型的状况是什么,性能上能对标GPT大概多少?

百度的ERNIE模型,最新是ERNIE 3.0,是在中文语义方面的大模型,参数量2600亿,性能表现上:1)文心一言主要是中文语义方面的应用,比如长语句、复杂语句、模糊指令等上游任务的理解能力还是非更多定制内容添加微start20160903常不错2)数学、逻辑推理方面有非常不错的表现3)多模态能力,包括text-to-text/text-to-image,这是相对GPT来说比较突出的一个点。GPT-4主要还是以text为主。整体的输入、中文理解领域,文心主要对标GPT-3.5。

Q2:哪些方面能达到3.5,哪些弱一些,哪些优秀一些?

从不同benchmark上对标:1)语言语种。ERNIE是local产品,文心所支持的语言语种理解以中文为主加小部分英文。面向的还是中文用户全体,chatgpt是global的大产品,主要支持英文,除了英文也支持中文,还支持德语、法语、西语、葡语、阿拉伯语,不仅支持语言学的知识,以及这些语言学下的各种区域性知识和事实性知识。就像昨天文心一言在秀遣词造句和古文的生成能力,是拥有中文语言的能力,chatgpt在多地区多语言下也有类似这种区域性知识。最大的benchmark差距点还是在支持的用户群体上,两者有很大的差别。2)中文语言下的功能,下游的知识生成和理解方面,从各渠道内部测评上,中文语义生成知识的内容准确性和丰富性,两者是在不同的 feature 上各有优劣,整体处在一个水平线上,ERNIE在遣词造句、引经据典、文本的丰富性和多样性上比chatgpt好。多轮对话、连续对话的稳定、准确性,文心一言不如chatgpt,数理、逻辑推理、代码生成、补全查漏补缺,文心和chatgpt有差距。差距是因为chatgpt模型上线,用户数据持续不断回流,模型多轮迭代,模型表现变好。虽然文心发布较晚,但随着中文互联网环境上被用户不断使用是会持续迭代和变好的。

Q3:未来商业化变现途径?

1)基于B端公有云服务,向下游商业生态进行技术赋能。主要的商业逻辑或者思路包括两大类,1)像 Openai 将GPT模型家族的base模型部署到Microsoft Azure云上做公有云的PaaS级产品,以未调用的 API 的方式在下游按生成量、按 token 进行付费输出。后续文心一言在百度智能云或者是百度大脑上也有类似这种商业接口付费调用模式的计划。2)行业或产业解决方案。国内央国企、大B、大K客户,对数据安全有布局要求,以项目制自由化交付,线下的客户case by case收费。

2)C端业务场景。办公场景,比如Microsoft office、Google workspace,后续国内商业办公、商业文档等类似企业服务产品,或者对于new bing、news browser创新的搜索引擎,还有比如GPT Pro会员付费模式、知识内容平台、内容营销服务平台、百度音箱、或者小米小爱这种结合了内嵌gpt版本产生的增强对话理解智能硬件产品,这种智能硬件产品也会有新的产品型号,或者是以硬件的采购或者消费类电子购买为主的商业形式。应用层的应用会非常多样。

Q4:定价大概在什么范围?比如GPT是0.02、0.03美金一千个token,转换到国内的定价范围大概是什么?包括b端c端整体的定价节奏?

Openai的GPT模型大概分成两种计价逻辑在Azure云上售卖:1)GPT的base模型,包括ada、babbage、curie、davinci这些的收费是按token,从 0. 002 美金到 0. 02 美金,根据能力的不同进行标准的 base 模型收费。2)很多企业或行业,拥有自有专业数据或者知识库,有二次微调、二次精调的诉求,OpenAI也支持企业基于自己的数据或者知识进行二次三tuning之后,部署到Azure云上进行后续付费调用,这个会贵6-10倍左右。

2)国内类chatgpt或者大模型产品,我个人认为,成本上应该比openai再高一些,整体定价不会偏离openai在大模型行业的基准,不会比Openai GPT调用模型的使用成本有量级上的差别,可能会对标同期同类型的产品定价。尤其是今年上半年全球大模型产业化浪潮中,背后的商业逻辑会是前期以抢占份额为主,打价格战。比如国内大模型会根据0.02美金一千个token去抢占国内开发企业或者开发者用户的市场。

Q5:百度最核心的几块业务落地可能会在哪里?

1)C端。首先昨天文心语言已经开放邀请式注册,得到邀请码的小伙伴可以通过一言点百度 .com的官网上,以页面程序的方式去和文心互动之外,后续在C端,1)第一个是百度的搜索,包括搜百科APP,作为DAU有接近 2. 5 亿的国民级APP,和大模型的结合场景还是非常丰富,还有像百度文库、学术都可以和大模型或者文心一言有很好的互动。可能会有增强版百度百科。以及在专业封闭的领域去做专业知识辅助写作与生成。在营销生成的场景,文心一言的文生图能力也能提高电商或广告营销的生产效率。2)智能硬件,百度有一个SLG-小度事业部,像小度智能音箱、小度运动健身镜或互动屏等一系列智能硬件,内嵌gpt的这种产品其实大幅度提高了终端用户对于现代 AI 2.0 时代大模型本身的对话理解能力,后续比如音箱或机器人会迎来更多智能消费终端的升级。引领大家购买一些这种能力或者理解能力更强的对话类的新智能硬件类产品。

2)B端。像昨天Robin和王海峰王老师,更多强调百度的文心一言在产业级应用中非常有优势,甚至相比 GPT也有很多优势。文心更多主打产业级的趋势增强大模型,因为文心之前有很多基于百度智能云服务的各种B端客户,像昨天发布会讲解的能源电力、金融银行、融媒体等各种产业级的数据和大模型应用能力。后期首先会结合文心已宣布的四五百家生态伙伴去赋能千行百业的对于知识、搜索后对话有诉求的专业场景,另外也会对现有B端产品做能力提升,比如智能客服、理财助手、知识图谱、新闻智能采编、媒体审核、商用文档、商用PDF,后续有很多新的产业级赛道出现。

Q6:国内厂商投入的意愿和力度?

1)无论是海外的Openai的GPT、Google以Bert为基础的PaLM、LaMDA,虽然openai没有把GPT-4在整体训练过程中涉及的专利、参数体量、数据情况披露出来,但以GPT-3为例,一个base模型为成本投入举例来看,目前GPT-3投入的10000张Nvidia V100高端算力芯片卡,V100 2020年市价8-10万人民币左右,像目前的高端算力芯片卡A800 应该也是差不多价格,折合十亿人民币左右。它代表行业内想training出来好的、比较通用的,效果比较完整且丰富的通用技术模型的算力投入。对国内而言中位数水平可能需要10-20亿的算力投入。2)另外大模型在生产层的三个要素:算力、算法、数据,算法科学家,背后比拼的是LP 的脑力密集程度,就是 LP 的算法工程师和算法科学家像openai作为初创公司,nlp算法人员有100多人,国内start-up作出这种产品至少需要100名左右senior工程师。3-5、5-8年的工程师年薪在100万人民币左右,人员开支1-2亿。4)数据上的cost包括百度的文心一言背后的raw data 源数据可能更多的还是 from 像搜索、百度的 feed 这些自有的业务数据,这些是十几年累积下来的,本身一次性投入的数据cost 不会那么多。但是对于初创团队,如果自己没有base数据,采购成本是比较高的。如果仅仅依赖包括像OPEN AI 或者 Google 已经开源源码或者数据集,模型效果肯定不会特别令人惊艳,或者是在市场级的业务有缺失。所以在数据侧投入上,数据成本可能很低也有可能很高,比如做一些生命科学的大模型成本可能非常高。以此类比,去做相对来说比较好的 beta 版本大模型,可能一次性投入至少 20- 30 亿左右。国内目前而言,主要还是若干个大厂的游戏,包括刚才已经举例的若干个大厂的模型,都是逐年投入的结果。

Q7:各家大厂有犹豫的吗?

目前第一梯队的大厂还都是战略级定位,在持续投入。

Q8:追上微软嵌入所有应用的能力需要多久?

包括昨天发布的Office 365,还有pilot这些产品,一方面是有潜力的大模型,基于 GPT3、4。其次它有非常丰富的业务场景, office 用户几十亿,用户本身就是偏量级的。如果境内想要做出来比较完美的商业闭环,首先上游需要有一个潜力还不错的基础模型,像百度的文心,或者是像阿里的通义、腾讯的混元。基础模型不能太差,即使是会有缺失或者都可以是以用代研方式逐步累积迭代出很好的模型。关键是下游业务场景有没有像类似 office 或者像 Google workspace 这种有偏量的用户,能够持续不断为模型迭代去打磨比较好的技术土壤,产品要有足够好的使用地方。这对国内很多产品来说是业务的天堑,尤其对于二线厂商或者start-up 来说更是天堑。后续也只有像若干个大厂,基于自己本身存量的业务,快速迭代出性价比非常高的、普适性的 AI 大模型产品,类似搜索和音箱之于百度,电商和钉钉之于阿里,或者社交和文娱游戏之于腾讯一样。类似像文档、邮件、CRM 或者 SCRM 这种大的服务对于国内的商业场景来说,是分散在一些其他垂直赛道的头部玩家的情况,后续会不会有垂直赛道的头部玩家和AI 技术大厂去结合的这种情况也是非常令人期待的。

Q9:在今年或者明年会表现出不错的表现吗?

快的话会在今年下半年或者明年上半年。因为chatgpt、new bing上线时都是不完美的,所谓global的大模型,这一轮大模型产品都是以用代研,首先抢先发布,随着用户体量的增多、业务数据回流去逐步迭代大模型表现,因为大模型 AI 类应用产品的特色或者特性就是如此,它和上一代的中模型或者小模型以及更早的 IP 的应用程序不同的是,它的产品体验和表现存在着巨大的不确定性。这些巨大不确定性是需要将产品进行上线以用户的规模或者用户持续不断使用和体验去逐步打磨。现在是大幕拉开的情况,后续文心随着智能云和百度大脑开放商用接口,肯定是有源源不断的商用产品或者应用产品出现,上线之后会抢占市场、业务空间,不断迭代让它有更好的体验,而不是十年磨一个大招再上线完美的产品,这个是不符合现在的大模型产品的商用逻辑。

Q10:为什么昨天两位领导不是特别自信?

我认为大家对于整体的文心的期望值,无形中有了一个很高的benchmark,benchmark就是前天的 GPT-4,它所表现的一些理解能力上,国内的大模型产品和 GPT-4 比起来还是有很大能力差异。GPT-4 目前在整个 prompting 支持长达 2. 5 万个 token 的输入。对于像包括文心或其他一些产品目前支持理解的最大的长度是在几千字,对标 GPT-3 的水平。Robin是百度第一代工程师,百度第一代搜索引擎就是robin写的,包括王老师也是业内知名专家,大家可能还是保持谦逊的态度,没有去吹嘘或者夸耀产品。但是对于外行来说,可能觉得产品都很烂,但是随后我们在昨天晚上对文心一言内测的直播过程中,其实文心在很多方面的表现还是非常不错的,甚至一些包括像图文场景其实比 ChatGPT表现还要好,也超出很多人的预期。所以包括今天股市上其实也反映出来了。

Q11:百度文心的透明度和gpt-4还是有区别?文心一言有没有RLHF功能?

文心主要还是对标 GPT-3.5,base 模型是 GPT-3,昨天王海峰老师也介绍,它加入了一部分人类反馈的强化学习机制。昨天更多还是录制原因,因为整体的prompt输入和打字过程还是比较长,也是为了控场所以提前录制,现场的演讲效果相对来说不太理想,大家可能基于这点觉得文心一言的能力非常弱。在昨天晚上的各个媒体的大v和大量网友真实互动中,网友对文心提的问题也很刁钻,包括代码的生成和查漏和补全等,其实文心的表现还是比较不错的,所以并不是代表它比 GPT-3.5 弱多少,和 4 还是没有办法比,无论是对于一些超长输入的理解、专业的学术领域论文的理解、通过玩梗图去深层表现它对于图像的理解能力都是非常强的。可能目前文心还没有办法和 GPT-4 直接对标。

Q12:文心也是像GPT-4一样它分三个步骤,一个是预训练模型,第二个是奖励模型,再用强化学习?主要的差异是因为我们用的标注的人,OPEN AI据说是用了 1000个博士去做?

三个步骤一模一样。没那么多,是40到 50 人左右,博士级别的标注团队去做奖励模型。一个大模型从数据的训练分为两部分,1)第一部分是在预训练阶段,需要各种各样大量数据标注工作,包括像清洗、分词、转译等等。Open AI之前也爆出在非洲、东南亚用大量廉价劳动力去做这部分质量比较低,但是劳力密集程度比较高的预训练数据标注的工作,这个是发生在GPT-3 这种base model 上。在 21 年和 22 年的Instruct GPT做了一个人类强化 RLHF方法,具体做奖励模型,主要是open AI自己的产研上去排prompt、写答案、排序和评分,建立奖励机制。

Q13:是不是只要百度的标注时间足够长,模型也会逐渐优化?

对。它其实是技术工程的概念。因为我们知道仅仅就搜索而言,其实搜索的这些用户的 query 的范围是非常广的,需要不断优化它拓宽覆盖的domain,它就会越来越好。

Q14:微软发布的新产品如果在中文版office使用,可能因为中文语料的问题导致跟国外有差异?

应该是会有一些差异,1)国内因为监管政策的原因,其实GPT产品是没有进来的。微软如果想要进入到中国市场,面临的第一道关就是网信办的内容监管的红线问题。因为GPT-3、GPT-4的raw data训练数据叫WebText,里面有大量所谓的加引号的封闭raw data,比如像 wikipedia的政治还有公众人物评价或者其他,在国内是绝对不过审的。如果微软想要迎合中国市场,可能需要做一个中国特供版的base model。至于 base model,它要不要做,花多少决心和成本去做是第一个问题。2)微软还需要在国内有代运营或者代理的公司,处理一系列国内的应用层或者法务层的各种工作。我觉得如果要做,也是以GPT为 base model,再去升一个中文版的分支,肯定从产品效果和表现上,还是和 global 版会有很大的差异。

Q15:比如电脑上已有的工作文档,微软是不是相当于是把已有的工作文档作为对 prompt 的修改结合到模型里面去?

从目前披露的一些公开信息上来看,是这样的。

Q16:国内厂商用GPT是不是会同样遇到中文语料有限制的问题?

对,应该不能直接去用,尤其是比较大的商业公司。如果是小公司,翻着墙偷摸去用应该也还好,但是比较严肃的商业公司应该不会。

Q17:文心一言昨天展示的直接生成视频能力看起来还是比较超出产业平均水平,当时它是基于现场演示的影视资料就能自动生成吗,能不能展开介绍?

目前对于视频创作的一些领域或者业务场景相对来说还是比较受限。因为它不是脱离基础的媒资库或者媒资资源进行凭空闪样或者空中阁楼的构造,更多还是依赖后端的媒资库资源池以及特定业务场景。目前可能所支持的包括创作、营销的场景,相对来说是比较受限的。支持的广泛性上,比如支持的风格、业务场景,大家还需要再等一等。它不是文生图那种直接用diffusion model 从 0 开始做,还是依赖一些媒资资源。

Q18:国内大厂现在的技术路径是和Openai一样还是会用其他家的?

业内早几年主要对标的Bert,因为早几年Bert在 LP 领域影响力是非常大的,或者说是独树一帜的。应该是从 21 年开始,基于GPT的prompt learning 技术范式才逐步展开。

Q19:除了百度,其他几家能看到C端类似的产品吗?

目前还未知,从战略高度上,比如如果是张勇站台或者是 Pony 出来站台做大模型产品,目前我们看不出其他家有这么高的战略定位。

Q20:国内各家大模型第一梯队?第二、三梯队?

第一梯队是百度、阿里、腾讯、字节、华为,第二是京东、讯飞、商汤、360和其他。



作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
科大讯飞
S
商汤-W
S
云从科技
S
昆仑万维
S
盛天网络
工分
1.37
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据