一、介绍环节
第一,GPT-4支持多模态输入,输出依然是单模态的文字模式,多模态是非常重要的提升,视觉在人类输入中占比达75%,而GPT-4已经支持多模态输入,今后会产生深远影响。
第二,输入输出容量提升,目前GPT-4宣布能输出25000字,输入方面能够支持更多的token输入,更大的容量也会增加对中文输入上下文的关联和理解的困难程度。GPT基于transformer算法,其中有自注意力机制,会分析每个字之间的关联性,关联性越高给的权重会越高,输入的容量变大之后意味着计算量平方倍增长,对算力的要求非常高。
第三,推理能力提高,推理能力是通用人工智能的重要能力,大模型将感知、推理和常识等融合在一起,这在以前从未实现过。GPT-4在考试中的进步速度体现出惊人的学习成长能力,并且由于多模态的出现基本上能够做所有的题目。
二、问答环节
Q:Copilot体现出更多能力,国内公司目前与之差距有多大?
A:Copilot是GPT-4赋能的应用,未来GPT-4相关能力一定会嵌入Office软件中,GPT-4会进行商业嵌入基本上是人们的共识。国内产品和Copilot存在一定差距,我国大模型目前和GPT-4的差距还比较大,但相差多少年的技术水平目前无法判断,因为目前还没有出现非常亮眼的大模型。
Q:文心一言和GPT-4的差距有多大?
A:ChatGPT的核心技术是用户反馈的强化学习,文心一言也提到了相关技术,猜测国内基本要跟随国外的技术路线,人类反馈强化学习是一个通用技术,主要看国内的工程能力、数据集、算力能否达到国外的水平。国外产品发布会可以允许错误的存在,而百度的发布会相较来说比较正式,采用了录屏的形式而没有冒险。
Q:GPT-4对生产力的提高情况?
A:生产力提高是必然的,GPT会改变很多行业目前的生态情况,例如翻译行业就面临着消失的可能,原先要找相关专业人士花费几个月的时间进行翻译,现在可能几十分钟就翻译完了上万字的英文;律师行业原先可能需要调阅很多类似的案例,现在GPT-4可以马上反馈结果并给出一些总结。金融等行业也是。此外,例如智能音箱等语音交互系统在接入GPT-4后交互会变得更加自然。生产力的提高值得做社会治理相关研究的学者关注。
Q:为防止生产力等差距太大,中国会调用GPT-4吗?
A:中国一定会研发具有自主知识产权的大模型,很难接受使用国外类似GPT-4的工具,就像当年把谷歌搜索引擎挡在国门外。现在有些人几乎已经放弃搜索引擎,有问题直接问GPT-4,它给出的是比较准确的答案而不再需要自己总结。国内肯定会坚持自主研发,国内用户都用国外产品的话,国家安全舆论安全等难以保障。
Q:国内在语料标注、算力、信息量等方面的差距怎么弥补?
A:大模型的出现几乎颠覆了人工智能研究思路,之前人工智能的研究有很多派系,例如transfer learning就将通用模型的知识迁移到具体领域去应用,现在不同技术路线基本都被统一到大模型上,不过也并不是说大模型是唯一思路,但是起码非常重要。大模型思路下需要大算力和大数据支持,无论采用人工标注还是机器辅助标注的方式,给到大模型的语料必须准备好,至少在中文上不能输给国外产品。国内算力比较欠缺,去年9月美国禁运了高端芯片,学术界、小公司都很难做大算力,只有大公司可能做。用AI的方式进行AI语料的标注是一个新的思路,例如美国有家公司就在这样做。
Q:GPT-4有可能取代已经投入很多的视觉领域算法吗?
A:目前来看会进行替代,最开始用卷积的方法,后来可以把图片当成同文字一般的流,把图片编码成token放入transformer中训练,这比传统卷积拥有更好全局性,但是卷积并没完全消失,在一些边缘场景、资源受限情况下,大模型成本过高难以实现,但是预计很多场景下大模型都会实现替代。
Q:大模型和各个行业内垂类模型是怎么样的关系?
A:预计大模型不会全部替代所有垂类模型,但未来很多情况下会先用大模型进行尝试,因为大模型具备了通用人工智能的一些特点,具备更好的迁移性。例如在金融领域内学到的知识可以迁移到税务等和经济有关的场景中,这种能力是原先垂类模型不具备的,大模型有可能会具备跨行业知识迁移的能力,跨行业也会是未来重要应用点。之前迁移学习就很受重视,如果以后万事万物都可以迁移,那么就掌握了类似甚至超过人类的能力,例如人类能够将骑自行车的能力迁移到骑摩托车,但是无法迁移到开汽车,人工智能如果实现了更加广泛的迁移能力,大模型甚至有可能把所有垂类模型全部替代,但需要一个过程。
Q:小模型可以实现接入大模型之后的升级,然后脱离大模型提供服务吗?
A:存在这种可能,但是风险很大,所有和大模型之间的交互数据都会存储在OpenAI自身的服务器内,但是用新生成的数据训练小模型以提高小模型的精度和性能是可能的。例如要预测能不能给一个人贷款,原先一定会设定一些特征,OpenAI应该也可以做相关决策,可以对比OpenAI的决策和自身的决策然后重新训练AI模型,这应该是可行的。
Q:中国本土大模型水平落后了OpenAI大概多少年?
A:差距比较大,从目前已经发布的情况看,预计目前要追逐还是GPT-3的水平,此后才是3.5版本和4.0版本。
Q:GPT-4迭代的速度会越来越快吗?
A:能力的提升核心在于算力,并且需要更多的输入进行训练(如大量语言、图片等),未来视频输入对算力的需求更高。目前微软的云的算力都不够用,会限制每天使用次数,这一方面是使用的人很多,云端负载过大,另一方面是算力问题。迭代速度和算力的提升有非常大的关系。
Q:国内是否可以先补充算力再补充算法?
A:目前国内算力受限,美国对高算力芯片禁运,国内芯片涉及到指令集、支持框架适应度等问题。
Q:国内大模型的主流会是国家队而不是互联网大厂吗?
A:应该会有社会力量一起,百度、腾讯、京东等都在做,不会完全靠政府,OpenAI就是资本驱动的一个组织。
Q:GPT-4大规模运用下算力端会带来多大的增量?
A:具体数据不明确,GPT-4和ChatGPT相比能接受更大的文本数量,对输入的推断会有更高要求,这是一个趋势。
Q:国内是否有进一步加强算力建设的方法?
A:目前尚未很好地展现出我国具备自主知识产权的水平,设计可能还行,但是生产尤其是量产是受到制约的。
Q:智能驾驶和智能安防场景下,大模型架构如何提升?
A:智能驾驶方面,在视觉方面有可能会使用大模型。以后可能会同步研究,比如a方案依然用以前的方法,b方案同步研究大模型去进行场景分割等。自动驾驶的语音控制(例如调空调温度、听歌)在融入类似ChatGPT的产品后一定会产生更好用户体验,交互更加像人类,而不是机器。智能安防比较成熟,人脸识别等技术已较为成熟,是否需要大模型重新颠覆该领域是值得思考的,大模型在端侧如何使用,成本等问题都是值得考虑的。
Q:有没有可能一家公司帮助百度、腾讯等大厂循环运用算力中心,因此并非需要很大的算力投入?
A:很难操作,数据是很重要的资源,算力中心对数据的隔离等不到位的话,会有安全问题。并且训练模型过程中会出现各种错误,往往需要很多次训练。并不是没有高端显卡就不能训练,可以训练但是时间往往很久,需要考虑时间成本能否接受。如果是个云中心,分配几块资源专门给不同公司可能是可行的,但还需要进一步研究,目前基本上都是大公司自己进行训练,数据的迁移和安全很重要,训练过程中的模型调整也是在实际训练过程中进行。
Q:大模型以后会部署在云端吗,还是部署在本地?
A:整体上会部署在云端,边缘端的推理基本上难以运行,李彦宏提出一个观点“模型即服务”,也意味着未来大模型可能会颠覆云计算赋能千行百业的能力。
三、总结环节
GPT-4支持多模态输入单模态输出,但是openAI其实已经具备了输入输出均是多模态的技术,这和人类的技能更为接近,这是下一步发展趋势。在此之后,视频可能成为输入形式,如果GPT具有分析视频的能力,这是更具有颠覆性的情况,一切拭目以待。