异动
登录注册
微软 GPT5 近况交流
周期合伙人
满仓搞的大户
2023-10-08 18:24:44

1、OpenAIGPT5 进展

表示下一代大模型止在研发中,原计划是近期发布,但在准确率方面遇到了一些 阻力,没有达到标准,所以重新开始返工,包括重新标注和再次训练。同时在多模态 和视频图像方面也遇到了一些困难,原计划是年底发布,但现在看可能会延至明年年 初。具体问题在于如何理解图像,自前在这方面遇到了一些问题。因为原有的图像理 解是基于已有的图像素材和标注库,但目前要做的是理解更广泛范围的图像。比如Bing 上的图像大部分都有标签,是基本可以理解的,但对于一些抽象的图片,如抠图 和实时路面信息等,这些边缘 Case 在 Bing 上的图片库就无法支撑,因为它门仅包含原始图像,没有进行大量的抠图和其他标注,所以当前面临的问题是这些原始图像无 法满足 GP1 模型的要求,准确率无法达到标准。原本计划是使用一种特殊的算法模型 进行语义理解,但实际上没有达到要求所以研发部分重新推翻了理论,重新进行抠图标注。与市面上一些图像模型,如 diffusion 相比, OpenAl 主要是希望找到图像之间 的内在关联,而不仅仅是通过标签的形式。因此,除了标注还需要进行二次训练,所 以整体时间延长了。相应工作更偏向工程和算法逻辑方面,因此不确定是否能按原计 划进行发布,自前看来可能会延期

2、在模型研发方面,微软针对通用大模型及行业相关模型的发展策略微软之前与行业 结合较少,许多公司没有充分利用微软的GPT 能力。然而随看微软云服务的加入,许多科技公司和传统公司都升始接入微软的云上GPT。一些代表性的企业也已经接入了微软的服务,在这种情况下,然后一起探索算法上的突破。除此之外还是延续之前的研发思路进行研发工作。

3、微软之前单独为 OpenAl 建立了算力的供给,自前相应算力供给的增长情况

微软自前给 OpenAl 的算力供给基本保持不变,之前供给的算力自前来看是足够支撑 当前的研发情况。然而自前的算力并不足以支撑 GPT5 的强化训练和后续的上线运行, 因此微软正在准备组装一个超级计算平台,以进一步满足未来的需求。目前大约有8 方入A100 芯片,但到今年年底预计就不够用了。所以计划扩展供给额外提供3万个 英伟达芯片的算力,对应年底可能会达到11 万个A100 芯片。

针对GP15, 算力供给是否足够

实际上OpenAl 的需求是增加10方个芯片,但由于合作中涉及到许多资源和成本,所 以最终的判断是先增加3万个,这是基于微软现有算力的实际使用情况和未来的增长 预测。之所以OpenAI 希望更多,是因为他们认为可以在更多领域进行尝试,扩大范 围,包括提升整体的运算速度。

但实际上,微软的科学家判断提升可能并不会太多。因此最终与他们商定的是先提供3万块。

5、GPT5 相对于GPT4 具体的更新(参数、数据量、能力更新等 GPT4 的参数量大约 是1.9万亿,模型层数是100多层。 GPT5 目前正在开发中,参数量预计将达到10万 亿级别,层数将超过1000层,大概是1300多层。目前在视频数据量方面仍然比较有 限,因为使用的是经过压缩的视频进行训练,所以整体上相对较小。同时正在不断增 加数据量,当前天约使用了5800亿个视频作为训练数据,天约110方亿兆左石。

6、谷歌和 Meta 做多模态是否相比 OpenAl 会更有优势,比如其视频语料库相对充足

谷歌和 Meta 在处理视频方面具有一定的优势。自前微软通过 Bing 上的视频和与许多 合作供应商合作来获取视频资源,虽然视频数量还不如 META 和谷歌,但在整体起跑 线上,差距并不绝对明显。因为在开发新一代算法时,大家都需要对现有的积累进行 大量改造。因此,在可用的视频范围和数量方面,与头部差距大约是10倍左右。因此 不会有质的差异但谷歌和 Meta 确实会有一定的竞争优势。

7、自前微软或者 OpenAl 的视频生成路径,是直接生成视频还是通过图片拼接的方式

现在大家基本上都是通过逐顺生成视频,原理差别不大,自前主流的技未都是如此。所以在中短期内,视频可能会比较短,但OpenAI 已经成功生成了大约15分钟长的 动画片,特别是科动画片,可以看作是自前的主要应用领域。自前主要的瓶颈在于视 频生成的合理性,因为生成的视频越长,越容易出现不合理的情况。其次受限于自前 的算力,不可能同司时支持大量视频的生成,但在技未上并不存在算法瓶领,也就是生成成视频的算法技未问 题。因此理论上生成视频更适用于短视频生成,因为时间较短但实际上它也可以用于 生成长视频和电影等。同时现在有很多的方式可以规避生成视频的跑偏与中断,比如 通过拟合和现有的视频素材,包括比较强的纠偏等,当前主要问题还是算力方面的支撑不够。

8、目前生成多长的视频可能效果会好一些,时长到达多长以后可能效果可能会弱一些

自前生成两分钟内的视频是没有问题的,比如合理性等都没有太大的问题准确率可以 达到95%以上。但是随看生成时间的延长,比如一两个小时的视频,其中包含错误信息的概率就很大增加,大约占到20%~30%左右,这些错误信息很可能是与现实逻辑 不符合的情况。因此,自前更推荐生成两分钟以内的视频。在内容索材方面,自前更 容易生成动画、简单场景的机械运动以及已有素材的组合。比如可以剪辑一个新闻的 片子,即使是已有素材的视频形式的组合,过程中不仅仅是简单的叠加或是拼儿张图 片,而是会加入一些中转效果、穿插以及从库中选择其他视频片段进行拼接等。然而 对于一些复杂的场景,比如生成真人动作电影,自前度非常大。

9、多模态模型后续的发展方向,是否需要在模型底层逻辑或结构上进行调整

针对实现识别和生成视频的问题,有儿入方向可以进行工程化或者对模型结构进行调整:首先在算法层面,不能仅仅依赖现有算法生成视频的逻辑

因为自前币面上的视频生成算法实际上并没有真正理解视频元素的含义。

OpenAl 的目标是让大模型能够理解视频的内在含义,例如能够理解场景、角色、物 体等,并理解它们之间的延续性和影响。需要攻克的重点是让算法能够理解视频的语 义,自前在这方面已经有了很多思路,但自前市面上还没有很好的方法能够真正理解 视频的意义。所以现有的视频生成方法虽解视频的语义,并按照特定的语境语义生成 深层次的视频。另外在工程方面, OpenAl 对性能要求也更高。前面提到的很多模型 生成视频时,实际上并没有深入理解语义的情况,这就导致算力需求并不高,因为理 解的不深入。但是一旦增加了更多元素并深入理解后,算力需求就会呈指数级增长。 因此,如果想要迈下一步的突破,需要十倍甚至更多的算力支持。

10、 自前模型性格的落地或者商业化进展与预期对比如何

自前微软在Windows 的 Bing、Copilot 以及第三方云应用中取得了重天的成果。特别是在第二方公司使用微软的云服务表现超出了预期。本来公司期望是相应公司能够集成 GPT 在 Word、Windows 等产品中,使得用户在这些场景下能够更好地使用。

但实际情况是相反的,他们自已集成的GPT 的调用量反而超过了微软已有的 Word 和其他微软产品的组合调用量。因此对于GPT 的需求在这些公司中比个人用户更强烈。 主要行业以科技行业为主,比如客服机器人语音对话平合和陪聊等,这些行业的调用量最高。但在整入 MicrosoftOffice 和 Windows 的使用中,模型的调用次数略低于预估。

11、 如何理解 B 端的应用落地好于C 端

B 端是结合不同行业的应用场景,比如一些公司和客服机构需要处理大量的对话信息, 因此他们需要更多陪取聊的能力,通常会产生很多轮次的对话其中对话是多轮且无法 预测的。在接入GPT 后,可以让GPT 与客户进行互动,相比普通消费者直接使用微 软的文档或使用 Bing 解决问题, B 端场景客户的需求更加强烈。同时于C 端用户,他 们需求还是更多被传统的方式所满足比如搜索引擎等。因此不同的需求强度和场景限制导致 B 端的整体调用量大于C 端。

12、 如何看待在B 端和C 端的商业化进程

实际上公司最初并没有考虑在C 端进行太多的变现,而是以 B 端为主要变现方式。比 如Ofice 产品是一个典型的代表,其主要以 B 端的商业化为主,尽管看到 Office 在 C 端很畅销,但C 端用户的收入并不如 B 端的十分之一。原因在于 C 端用户大部分还是 使用盗版,而 B 端客户只要是稍大一点的公司,都会购买止版。除此之外,微软还有 许多与政府的合作项自和定制企业项自,特别是像律师事务所和专业领域的公司,它 们特别需要工具进行送代,所以他们非常愿意为微软的工具付费。他们有很强的付费 意愿,而且愿意支付高价。整体 B 端肯定会比C 端带来更多的收入但是为什么微软还要做像 Office365 这样的套件升级?其实首先要占领市场,其次要培养用户的意识,让大家意识到他们的工作可以与入人助争一起分担,养成这样的用户习惯。最后在打磨好相应场景后,最终向 B 端客户传到并收费。

13、B 端目前针对 M365Copilot 的反馈

针对当前Copilot 的购买意愿,实际上欧美地区的客户非常愿意购买相应服务,天约有8%的用户选择了付费服务,与预期10%差别并不天,14、使用微软云的用户具有哪些特点共性相应企业通常与科技相关,不论是新兴企业、传统企业还是互联网和软件公司, 它们都与科技相关,无其是一些传统的媒体和广告公司,虽然它们属于传统分类,但 实际上它们从事的是新媒体和科技赋能的活动,因此与微软有接触的公司通常都属于 科技新兴企业的范畴。自前还没有遇到纯粹的传统企业购买微软的云服务,大多数情 况是由传统企业集团旗下的科技分公司来采购。其次由于微软非常注重隐私保护,开 承诺不查看用户数据,只提供模型服务给客户使用,所以只能判断调用量大的企业包 含以下几类:互联网企业,主要指那些本身就从事互联网媒体工作,并使用对适机器 人的企业;而做客服软件科技的企业则是第二类;第三类是专门从事内容创作的科技 公司,比如素材创作和新闻资讯等;此外,其他行业的公司则属于细分子场景,没有 特别突出的特点。

15、 当前企业端需求的持续性如何

自前相应领域已经经历了一个相对长期的发展阶段,并且正在朝看固化流程的方向发展。比如客服机器人已经成功地应用GPT 技术,并在实际场景中发挥作用。现在很多 实际场景已经将GPT 的能力作为基础服务进行赋能,但是仍然存在提升和探索的空间, 他们很有可能不会撤销这项服务调用量基本上是持续增长的。

16、 如何理解微软对OpenAl 研发的影响,以及后续OpenAl 模型与微软产品的结合情况

首先,微软一直是 OpenAl 的主要股东,提供了包括硬件、战略平台数据以及其他工 具和服务等各方面的支持,扮演着OpenAl 的主要支持者角色。其次,微软的科学家在GPT-4 中已经贡献了大约三分之一的研究人员,与欧洲联盟的团队一起进行探索。实际上在GPT-5 中,微软的科学家将占据大约一半比例,并在研发工作中有一定分工。 总体上微软将逐步承担在特定领域的开发工作,并逐步发挥主导作用。尽管整体框架仍然由 OpenAl 主导,但对于特定领域的特殊算法,微软起着决定性的作用。因此,两人团队之间形成了紧密的合作关系。而直微软的投人将会比以前更大,微软的影响 力也会更大。随着时间的推移, OpenAl 将持续将大型模型的能力输出到微软的产品中,由于OpenAI 现在非常依赖微软合作并不会中断。

微软 Azure 云已经接入了OpenAl 以外的开源模型,是否会影响微软和 OpenAl的合作并不会影响微软和 OpenAl 的合作。因为微软和 OpenAl 在思路上有一些不同司,微软是一家大型公司,拥有多人部和集团,其中云部是其中之一,研究院则是另一个重要部。

研究院主要为 Al 领域提供科学家与 OpenAT 进行合作,而云部则拥有自已的平台战 略。云部致力于构建一个开放的平合,不会限制客户使用云服务或者使用计算资源。

在研究院方面,与OpenAl 有看紧密的合作在共同开发GPT 等相应产品方面,整体不存在冲突的情况。

S万兴科技(sz300624)S S工业富联(sh601138)S S浪潮信息(sz000977)S  

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
万兴科技
S
工业富联
S
浪潮信息
工分
9.26
转发
收藏
投诉
复制链接
分享到微信
有用 10
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据