异动
登录注册
360公司专家交流
剑阙
2023-04-05 18:25:00

Q:现在做大模型的公司太多了,里面又有各种垂直模型的说法和不同概念下的说法,从专业角度看应该如何去鉴别真伪呢?

A:首先现在非常明确的是 360 的大模型的技术水平,距离 GPT3、GPT 3. 5,还有 GPT 4,还有差距,现在还是位于GPT 2. 0 到 3. 0 的一个能力水准。现在有强化学习的规划,但是还没有 ChatGPT 的算法原理完全标上,所以这一块有些差距。

之前公司内部说跟国外同类型差距是 2 年左右的时间,也是比较客观的。主要是从两方面考虑,第一方面,是公司做产品的能力比较强,公司觉得 2 年左右公司可以把 AIGC 技术推到公司自己还有生态合作伙伴的产品里边,做非常优秀的应用出来。第二方面,现在属于 LLM 社会化刚起步的阶段,公司想做到国外的水平,可能需要一年到两年的时间把用户的数据收集回来,转变成公司自己的训练数据,再来提升模型的能力。从这两方面考虑,是 2年左右的时间。

公司自己技术发展路线并没有把国外其他公司的模型照搬过来去做。360 在大模型方向的沉淀也很多年了,公司各个方向都做了融合,encoder、decoder、MOE、 Export 都做了融合,还有多模态,都是公司自己的东西,并没有说直接把谁家的东西搬过来去押宝。

现在讨论算力的情况比较多,公司认为在当前的环境下数据的重要程度会更高。具体的方法 每家也都会频繁的分享,然后算力的话也不是太大问题,像有些大厂可以做到几万片的 A100,公司没有几万片也有将近千片,公司现在的模型也没有非要做到万亿级别、千亿级别的模型,还是一个百亿级别的 baby,所以算力是够用的。就算未来公司做到大模型了,公司有很多 渠道,比方说跟云厂商去合作,包括海外的渠道去拿货、拿机器,所以算力完全不是问题。

公司也在考虑降本增效,优化算法,在有限的机器里边跑出大模型,这个是所有公司都在研究的。包括最近看到的快手的新闻,快手比公司做得好,他们是基于 Google 的 Lambda 改造的模型,将近 1000 亿的参数,训练的显存大概超过1T,单个模型的推理显存需求在 400GB左右,但是他们内部没有那么多 A100 的机器,他们 A10 的机器比较多。所以他可以把算法通过编译器、推理框架、模型的量化剪枝优化,在不影响精度的情况下把模型的容量压到能够在一台两卡的A10 的机器上运行起来。他们训练的时候也能够把参数量翻 10 倍,优化到只需要双倍的机器,就可以训练参数量大于 10 倍的模型,很多公司在做类似的技术。

Q:如果别人一年做出来了模型,公司做的慢的话,还有意义吗?现在数据处理最大的损耗在哪里?投入多少团队或者多少外部协同做数据处理的方法?

A:首先谈论的数据只是冷启动的数据,满足产品上线的初始版本的数据,公司数据以开源数据为主,国内外有大几十种 NLP 的高质量语料数据,期刊,还有类似于知乎等其他平台的数据,还有公司自己搜索引擎里边 rank 10 或者 rank 5 的数据。

公司自己没有标注工程师,但是有很多标注团队类似于数据堂,博彦科技这种公司,因为算法本身是个自监督的算法,所以只需要保证语料干净就可以了。后面训练对话的场景的数据要去把 rank 5 里的广告之类的剔除掉,然后生成精炼凝炼的回复,这里面都会有很多算法。公司现在有 3 个团队在做,光负责数据这个模块就有很多算法工程师,通过 Bert 模型来做中心思想的提取,公司有大几百万高质量的 QA 数据,这个是生成模型的主力。

Q:比如说用支付的数据要给他付费或者调用的话,需要签总包协议吗?

A:公司有渠道有合作可以拿到数据。

Q:比如说这两年在投入这方面怎么做预算?比如说算力投多少钱?做成大模型需要多少算力?要养多少人?每个环节能投多少人力?还有其他的耗费有多少?感觉能砸多少钱?

A:现在是 3 个团队,业务线、技术中台、算法工程加起来将近大几十人的团队,这件事在公司内部的优先级是最高的。研发投入这块有规定,所有的具体数字不能暴露,公开信息上有 200 亿的现金流,公司投入的非常多。比方说再拿个几千片 A100,都完全不是问题。这个方向的人也一直在招。

Q:现在整个行业的瓶颈在哪里?

A:公司的瓶颈可能就是需要时间,公司把它当成常态化的东西。其实 ChatGPT 引爆的是下一代的搜索引擎,下一代的移动互联网,还有互联网的产品形态、交互形态,公司把它当成一个长期的改造发展任务来做,但是要在公司的市场份额被别人抢占之前,把这些产品都做出来。不会说一两个月就有翻天覆地的变化,还是要一步一步来。所以现在的瓶颈就是人永远是不够的,数据越多越好,现在算力目前看起来是够用的,产品目前还没有发布流量很高的 AIGC 能力的产品。

其他公司的瓶颈的话,估计也是类似的,只不过有些公司技术能力比较强,像腾讯、字节考虑更多的是产品层的东西。技术能力不太强的公司除了考虑产品层的东西,还要考虑技术层的东西,如何能够做得像美团一样,除了造芯片以外所有的软件技术都能够优化到极致?同时还要考虑经营情况,因为现在互联网整体都是亏损的,要做降本增效的工作,把 GPU 的利用率等提上去,不能无脑买机器,不算投入产出比。

Q:公司 A100 的算法优化需要哪些外部协作?

A:现在公司聚焦的是算法的优化。算法设计的优化和算法工程化的优化同等重要。公司和智谱AI 一直有算法研发方面的深度合作。智谱 AI 的模型叫 GLM。智谱华章有个 130 billion的模型,是基于清华的 6B 模型发展起来的。在国内先不说这个算法实测的性能如何,它的产品和整个研发还是非常标杆的。

供应商方面,公司主要和云厂商以及国产芯片制造商合作。云厂商给公司提供云服务,并且要与公司的平台打通。公司在扫描国产化的芯片厂商,但是目前评估不太乐观。一方面目前机器难买而且在涨价,制程高的芯片良率会出现问题,良率出现问题的芯片价格又会高。另一方面芯片公司的软件做得很一般,甚至很差。例如燧原的二代芯片已经发布,但是软件很难用,公司很多算法没有办法跑起来。

Q:目前大部分公司都在做的语言大模型,其产业的瓶颈在什么地方?

A:首先是所有公司都在闷头做,但是还没有发布,目前国内大模型的情况还不太明了。例如华为的盘古大模型从 17 年就开始了。这些东西是花时间就能做出来的,但是目前国内欠缺的是带有中国大模型技术或者中国生成 AI 技术的优秀产品。AI 真正的爆发点需要有好的产品,例如 OpenAI 在 ChatGPT 3.5 之前都无人关注。例如 Anime AI,Midjourney,Jasper和 Adobe 的萤火虫,这些优秀的应用发布都会有个爆发点。但是AI 工具软件用到的国产大模型就几乎没有。因为美国本身擅长工具软件,例如 Office、PS、Dreamweaver 等,国内公司擅长偏应用端的互联网技术。

Q:OpenAI 做出来了大模型,但是谷歌、微软等大公司都做了很久。是因为做大模型需要非常开放创新的创业团队吗?还是因为大公司有路径依赖?

A:不一定是大公司的历史包袱,只能说术业有专攻。OpenAI ChatGPT 类应用做得比谷歌好,但是如果是生成类的搜索引擎,谷歌未必会做得比 OpenAI 弱,因为 OpenAI 没有搜索引擎的数据。所以上一代产品是有价值的,是下一代的基础,需要把知识图谱,搜索引擎和生成AI 模型融合到一起来。

Q:微软也急着抓住这个机遇和谷歌竞争是吗?

A:对,因为微软有 Bing。微软有三只手非常厉害。第一只手抓住了 GitHub,抓住了全球最大的开源、高质量的代码社区的训练语料。所以微软有 Codex。第二只手是微软收购了 OpenAI。OpenAI 有非常强悍的研究能力,特别是在强化学习,人工智能,真正意义上的交互智能这一层。同时它还有很多应用,套件,全家桶等。还有第三只手就是微软是做云服务的。微软有全球排名第五的超级计算机,大几十 U 的服务器它可以随便做。360 就不做云服务,公司有内部的私有云环境,但是离对外提供服务还差很多。公司的 SLA,安全保障协议,细节和集群的稳定性各方面肯定不如专业的云厂商做得好。因此这也是微软强的一点,它有微软 Azure。

Q:公司对外数据付费是什么量级?

A:数据肯定需要付费,包括采买费用和标注费用。具体的数不方便说,但是公司一直有这个研发投入成本。

Q:公司数据一般怎么采购的?

A:数据有爬来的。例如汽车之家的用户画像系统,所有的互联网公司可能都在用,但是每家公司都说是自己的,他们会把这些数据消化在底层。知乎数据有爬来的,如果爬不到或不让爬了就去买版权。包括像微博、知乎这些评论比较优质的,公司都会合作。出版数据的获取关系到版权问题,有版权的如专业的图书公司和国家知识库公司会去买版权,也会有很多没有版权的数据,公司也会自己去做处理。

数据获取这个问题有点灰色。目前公司产品还没有商业化,所以不太好说这个问题。公司内部也比较回避谈版权问题。因为所有数据都有版权,公司所有训练的数据都涉及版权,但是生成的数据经过处理,客户就看不出版权。公司多模态出得慢就是因为公司考虑的更多是生成数据的版权问题。一方面生成数据要有原创性,不能和别的数据一样,另一方面不能涉及侵权问题。公司内部有算法,安全审核和审图的模块,包括云鉴、云镜,去控制生成的数据,排除生成数据里的敏感人物以及公众人物肖像等问题。以往只能购买数据,无法采买到客户数据。因为客户去找博彦科技的数据标注时,需签订一个保密协议。博彦科技自己会收集、爬取数据,有时不考虑数据版权问题。公司会从类似博彦科技的公司购买数据和人力标注。

Q:成本占比高吗?

A:是的。公司内部编制很紧俏,也不愿意花费几千甚至上万元去招注册标注。如 OpenAI在肯尼亚有上万名劳工,24 小时轮岗来做数据标注,公司肯定是比不过的。一线的互联网公司有专业的数据标注指导团队。

Q:人工是否越便宜越好?国内人工是否偏贵?

A:是的。国内的人工比国外贵。但也要考虑数据安全问题。目前 360 作为根正苗红的公司,没有考虑国外人工。

Q:博彦科技公司体量有多大?

A:是的。会分包到学校,学生兼职采用线上办公形式。

Q:现在大家都去开发模型的话,语义标注需求是否会发展很快?

A:是的。但未来还是要应用到社会中,让社会中的人去做隐性标注,这样更加有效。比如和 360 交流时,其回答的问题不是很标准,但很接近,用户可能会矫正。这样,360 即可获取数据。OpenAI 开发GPT3 的 paper 有 70 多页,其中只有一页关乎算法,其余全部在讲实验、数据处理。它的 30 多个作者中,有 20 位在牵头用算法处理数据,每人负责一个子版块,这是第一个输入。第二个输入是 DCAI 以数据的生命周期管理为核心的。这种思路从 2020年左右公司就看到了,起先爆发在自动驾驶和安防、工业制造领域,小样本长尾问题非常严重,数据缺乏。因此,它的数据标注费用很高,所以当时考虑闭环问题,即通过产品让用户赋予反馈,就是打通所谓的 DCAI 或者PDCA。拿到应用的反馈数据,才能融到业务流程中持续智能。否则,如果现在出售的安防产品在某一个场景的识别效果良好,但在另一个场景识别效果较差,就会导致泛化问题很差的情况。解决这个问题的办法是让算法自学习,就是让新数据涌入,通过自动化、半自动化和应用侧反馈等行为,提升数据标注速度,让其自更新。

Q:什么样的公司比较熟悉这些?

A:魔方数据。不仅仅做数据外包,它还有很多 Pass 和 Saas 平台,能大幅度提高数据标注效率。客户主要是大模型、自动驾驶和安防语音公司。

Q:除了标注算力,还有哪个环节必不可少?

A:人力招聘,现在招聘比较困难。现在大模型和多模态的人才紧缺,此外,前两年,很多科学家回归学校,如腾讯的高管。

Q:你如何理解这几家巨头?如何比较各家的路线?如何比较好坏?

A:从应用上比较。ChatGPT 是一个应用而非算法。

Q:那是否可以理解为百度投入这么多年,其数据在人工智能积累上有先发优势?

A:现在评估算法好坏有两个指标,第一是可量化的,在确定数据集上的。另一个是标准化指标,如准确度,明确的计算公式。第三种是业务指标,即客户视角如何定义产品是好用的?对于 ChatGPT 来说,有三方面能力,即基础知识能力、进阶能力和垂直领域的能力。目前看到文心只有GPT3.5 的 50%的水平,是由真格基金评测出来的,它的数据也是准确的。

Q:公司的产品经过评估达到 GPT3.5 的何种水平?

A:公司目前还没有做相关的评估,这一部分主要是由客户来进行。

Q:公司认为头条、快手等类似的企业,哪一个会优先让市场去投入?

A:这可能需要看一下华为的速度,在 Q2 的时候可能全部的情况就都会明了,因为每家公司是不一样的,比如像腾讯一样自身产品能力比较强的公司,其优先发布的是 AIGC  的 application,但是用户看不到背后的混元大模型,而只能看到微信里边多了一个功能,可以给用户提供一些智能化的推荐等。华为的产品能力其实不强,他需要依靠其生态合作伙伴,所以华为可能就是重点研发个大模型。

Q:公司在 2.0 进程中会继续在什么方面进行投入?

A:公司在 2.0 的时候会发布一个多模态的模型,可能会再投一点算力,然后在推理部分的算力也可能会再投一总而言之,公司才这方面没有什么特别阻塞性的东西,且 360 的产品能力较强,公司董事长在这部分的战略思维也很强。

Q:公司认为未来的应用会有何较大的转变?

A:其实现在已经展现出来了。有协同办公类的软件,比如 Excel、PPT、Word 文档等;还有一些设计师用的东西,比如制图软件、短视频生成软件;还有一些设计岗位设计的开发的 IDE,比如现在可以通过很多插件把 code 都放在 IDE 里边。主要就是上述软硬与应用,至于企业安全等To-B 的业务见效会很慢。

Q:公司认为还有哪些环节可能出现杀手级应用?

A:一个就是搜索引擎,其成本是非常高的。如果能够用生成模型去替代一部分原有的搜索引擎,那么就不需要存储大量的知识库、文档、材料、视频等数据,会大幅度降本增效,用户的体验感也会增强,但是这肯定不是一个短期之内的事。还有一些语音方向的应用,比如 OPPO、vivo 等公司基于inter-transformer 可以把客户完整的声线,音调、音色全部都记录下来,但是这也是把双刃剑,可能应用到电信诈骗,但是也可能去帮助用户回答一些东西,客服能力可以得到提升;还有一些涉及 3D 数据生成的应用,但是现在还处于早期,并不成熟;还有一些像预测蛋白质结构的应用,比如 Alpha fold,属于生成类的模型;还有涉及医药分子结构研发的软件,现在国内很多的创业公司正在做这方面的研究。

Q:公司在数据层面主要与那些企业进行合作?

A:互联网公司之间进行合作,未必会找大公司,小公司也会涉及,宗旨是成本最小化。因为前两年,算法已经卷到了瓶颈,细分领域的算法动不动就成千上百种,可以解决各种问题。但是为什么后来又去研究小样本学习,就是因为公司能够获取的数据没有那么多。于是,数据公司就开始做一些生成类的算法,比如像英伟达的 Omniverse(数据仿真平台),在里面可以 DIY 各种光线,并生成自动驾驶的长尾效应等多种难以收集的数据。所以,数据的 generator 是非常关键的。此外,ADAS 的DMS 系统的算法早就固定了下来,但是系统在实际中的效果却有差异性,这就是因为存在没有出现在训练机里的数据,所以才需要去生成更多样的数据,然后通过一个系统能更快地转换成需要标注的数据。上述的主要思路是由前百度首席科学家吴恩达提出来的,三六零、华为、百度都是在类似产品上的 follower。

Q:公司认为在游戏领域的相关应用会是在什么时候?

A:已经有很多成熟的东西了。现在,游戏的从二维图像转变成 3D 游戏角色的代码生成过程、还有整个场景的构建、还有整个语音系统的生成都可以由相关GTP 模型生成。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
三六零
工分
0.55
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据