内容仅代表嘉宾观点,记录过程可能存在遗漏,仅供参考
田奇:国际欧亚科学院院士、华为云人工智能领域首席科学家
AI FOR industry 赋能千行百业,智能升级
人工智能已经加速进入千行百业,华为云过去几年人工智能的项目已经超过了 1000 个,其中 30% 人工智能已经进入了核心的生产系统,帮助客户盈利能力平均提升18%。人工智能对企业的渗透率预测到了 2026 年达20%。现在迎来了人工智能新的一波浪潮,因此人工智能对企业的渗透率我觉得还会大大的提速,大大的增快。
我们从 2020 年、2021 年开始判断人工智能发展趋势。第一是从传统小模型到大模型,10 年前我是做计算机视觉的,Alex net 在 image net 上出色的performance,相对于 Alex net 对算力的需求,2020 年 5 月份出现的自然语言的预训练大模型 GPT 3,算力的需求不到 10 年的时间增加了 40 万倍。
大模型从 18 年的 Bert model,大概 3. 4 亿参数,2020 年 1 月份微软的图灵LG 大概 170 亿参数,不到半年的时间就出来了GPT 3,达到 1750 亿,去年的谷歌发布PALM,单体稠密的模型参数达到 5400 亿。我们认为大模型将成为应对AI 领域很典型的现象,应用碎片化的新范式。
首先大模型用海量通用数据加上行业数据训练,极大提升模型的泛化能力和通用性。训练大模型需要两个关键的因素:首先它对资金的门槛要求比较高,GPT 3训练一次的成本千万美元,对算力有极高的需求,GPT 3千亿的模型训练可能 1000 块V100需要五个月的时间。其次技术的门槛要求特别高,需要专业的人员,有经验的人员,对大模型框架的深度理解,以及并行优化能力。大模型已经在改变 AI 的产业规则和格局。
另外一个 AI 的发展趋势就是 AI for science,AI 和传统的科学计算快速融合,传统科学计算海洋气象,地球科学,机械、航空航天、土木、地质等等,众多的领域目前已经受到了人工智能深刻的影响。传统的科学计算因为是解决很多物理世界的问题,因此基本上是用海量的偏微分方程的求解。但是由于传统的科学计算并行度不高,所以对海量问题的计算消耗也是比较大的,时间也是相对较长的。
这两年 AI for science 也出现了一些代表性的工作,比如像 Alpha fold 和 Alpha fold two,对蛋白质结构的预测工作。之前的工作包括谷歌的、英伟达的,DeepMind 发表的这个 Graphcast 方面的工作,也有 IBM 的关于局部区域的海洋波浪的高度预测(在一个海洋的一个位置给定精度和纬度能不能预测,决定当地当时的风速能不能预测到它的波浪的高度。)。IBM 之前做这样的工作,但是在一个相对较小的区域。华为发布了很多行业的大模型,用在了气象,用到了药物分子,还用到了海浪、波浪高度的实时预测。希望人工智能为传统的科学计算带来新的思路、新的工具和新的方法,也希望传统的科学计算的话,为 AI 带来更严密的科学的可解释性的指导。同时也要看在传统的科学计算,人工智能在哪些领域可以发挥重要的作用?应该选择怎样的 AI 模型,并且同时也深刻地认识到他们在这些传统的科学计算中还有哪些优点和缺点。
大模型成为应用应对 AI 应用碎片化一个新的开发范式。华为大模型是作为对各行各业产业赋能的重要的枢纽。我们把大模型赋能千行百业,把它分成了三个层级,从L0、L1 到L2。L0 是大家所说的基础通用模型,比如GPT 3,叫foundation model。把基础通用大模型直接应用到行业中,比如工业质检中,用到遥感影像中,可能不是一个最好的效果。因此基础模型还要和行业数据相结合。在基础模型 L0 基础上加入行业数据,混合训练得到的行业大模型L1,再把 L1 在具体下游千行百业的细分场景进行一些部署,得到它的部署模型或者细分场景的任务模型L2。
为了尽快的赋能降低生产成本,提高效率,如何从行业大模型 L1 中快速生产,或者高质量的部署模型 L2 部署到端侧、边侧和云侧,这就是一个非常重要的问题。华为过去这几年主要做盘古系列的预训练大模型,大模型分两个阶段,第一个叫预训练阶段,用海量的数据预训练我通用的底座基础模型。第二步在针对下游的千行百业的具体的任务,用行业数据进行微调,或者部署模型。大模型为了越用越好,大模型的迭代也是非常重要的,因为新的数据在不断地产生,如何把新的数据和之前训练用的数据结合起来,如何实现大模型的这样的增量学习,大模型的终身学习,实现模型数据应用全生命周期的迭代,让大模型越用越好就非常重要。因此我们加了第三步大模型的迭代。
华为云2019 年到 2021年之间就开始立项做盘古大模型,2021 年 4 月份发布了盘古NLP 大模型,1. 0 盘古视觉大模型,盘古科学计算大模型。2021 年 9 月份用于药物研发,做小分子/药物筛选,发布了盘古药物分子大模型。到 2022 年比如和能源集团的合作,发布了盘古矿山大模型。2022 年 11 月份,在去年的华为HC 大会上,我们也发布了盘古气象大模型,在去年的 HTC 泰国的话,也发布了盘古海浪大模型,盘古金融 OCR 大模型。
基于我们的一站式开发 AI 开发平台 Model ARTS(做了大量工作,包括计算的优化、通信的优化、存储的优化以及算法的优化等等),我们建立了L0 的基础模型、视觉大模型、NLP 大模型、科学计算大模型等等,能用在各行各业的矿山、气象、药物、分子电力、海浪金融等等,同时在一些细分场景的 L2 的场景模型,比如金融的OCR,电力的巡检、海浪预测、小分子优化,比如做一些建筑能耗优化等等。22 年盘古大模型主要是做好行业应用AI FOR industry,希望在煤矿、水泥、电力、金融、农业、国家云创造更多的产业价值,帮助客户。
案例分享
视觉大模型,用到了一些工业质检上,比如用了带一些偏光片、生产流水线的工业质检,铁路 TFDS 的轨道、机车曲线检测、电力巡检,无人机的电力巡检,每天会拍摄大量的海量的照片,如何从海量照片中快速地筛选有缺陷的样本,并且做到确信。过去的话传统用几十个小模型来做这一步,现在希望用一个统一的大模型能够加快它的筛选过程,提高它的筛选检测质量。我们跟煤矿集团的合作用在矿山的矿山大模型,还有一个用在时尚辅助设计的门店半定制设计。NLP 大模型去年交付了一个阿拉伯语的千亿大模型,后面也有一些在榜单上取得了比较好的一些成绩。类案检索方面,在中国智能技术评测中去年也取得了第一成绩。在科学计算,我们发气象预测的模型,还有海浪实时预测的模型。
盘古的视觉大模型:2021 年 4 月份在华为 HTC 大会上发布,当时发布的时候是业界最大的 CV 模型,大概用 10 亿图像训练了一个30亿参数的 CV 模型,已经在 100多个场景得到了验证。并且在一些学术 benchmark 上,在image net 在 1% 10% 的设置下都达到这个线,分类结果达到业界的第一。
相对于自然语言处理,视觉有一些不同的挑战的问题。比如最左边的两幅图像,第一个挑战叫做语义信息高度稀疏,虽然两幅图像非常简单,第一个图像代表的是蓝天草原概念,但是这个图像所需要的空间是远远大于它语义存储的空间。第二个是数学公式,也是非常简单的,因此它的图像的存储远远大于它的语义信息的存储,因此挑战是在哪里,需要从图像中去提取信息密度更高的语义特征。应对这个问题,主要从两个方面来考虑,一个是与图像本身的,比如说属性有关的,比如它是医疗图像、工业质检的图像,或者说是遥感图像。然后通过大量的预训练过程来实现的。
另外是跟模型相关像有关的,比如这一个图像,不管是哪类图像,是关注它的局部特征,还是关注全局注意力,因此相应设计比如transformer 架构还是rnn架构,这个是通过模型设计来完成的。因此解决这样或者应对这样信息高度稀疏的问题,解决办法就是通过神经网络架构设计和预训练。另外一个挑战,同样这两幅图像,它可能表达的语义是一个选手骑在马背上,但是由于图像的采样方式不太一样,远近视角不一样,因此如果用左边的图像来做训练,再用到右边的分类上的话,模型可能性能就会下降很多。这样的一个挑战就是由于图像寓意之间的差异较大,为了解决这个挑战,它的方法是通过预迁移的方法,做针对下游的具体场景的针对性的微调,来提高它的精度。同时由于下游的一些任务面临着一些数据短缺,不好采集,数据量少的一些问题,因此要做到数据高效的微调。
如果说模型设计预训练加上下游行业数字高效微调,就是大模型预训练加微调的新的开发方式,那么 CV 大模型也用到了很多的案例上。第一个就和能源集团的合作,发布了华为盘古矿山大模型。
井下的现场实际上可能是一个 40 米长采掘机,采掘钻头大概 直径 2 米左右。因为传统的阵列式的相机很难一下子捕捉到全景,因此传统是九宫格的视频画面,通过5G 加 AI 的全景,videostitching拼图技术,把它拼采成一个实时的现场视频或者照片来通过 5G 再传输到地面,让地面的工作人员将来可以实现,这是一个愿景,将来实现比如说在地面控制机器进行采掘这样的过程。因为煤矿底下确实存在的一些安全的隐患。
另外一个是用在煤矿的运输皮带上的异物监控,也就是煤被采掘下来以后,它会通过一个主运输皮带从地底下传输到地面上,皮带可能存在几十公里长。传统方法是通过煤矿工人人工巡视来发现传输带上的异物。如果在传送带上出现了一些异物,比如一些铁丝或者一些毛干,如果出现了卡住了皮带轮的话,就会导致一些比如火灾火花的现象。矿山大模型做这样一个监控,可以让异物精度的识别达到了98%。也首先提出一种筛选策略,非正常及异常的筛选策略。
另外一个是通过矿下视频技术,对矿下安全作业规范检测,当你的作业,比如掘机动作不符合标准的话,进行实时的预警。
第二个案例是把盘古的 CV 大模型用在铁路TFGS,轨道机车上面的缺陷检测,追车上会出现比如说掉链、脱落、裂痕等众多潜在的不安全的因素。过去同样是通过动态的检测员来进行人工的对图像进行inspection,人工成本比较高。过去全年有全路 6000 个动态检测员,人工强度也是比较大的,希望能减轻他们工作量,提供了盘古大模型核心能力,包括图像质量的自动评估、小样本的故障定位与识别等等。在 2021 年9月到 10 月在郑州铁路段收集的32000 多样本的实施的评测中,大家可以看到对于这种缺陷的或者对故障样本的检测都达到了99% 以上。
华为云盘古科学计算大模型。人工智能和科学计算在模型、算法、软件、硬件四个方面加速进行融合。我们在 2022 年的 HT 大会上,由华为云平安总发布了华为云气象大模型,它是一种 3D 高分辨率的 AI 的气象预报方法,全球首个精度超过传统预报方式的 AI 模型,传统是通过数字分析的方法,排在第一梯队或者名列世界第一是欧洲气象中心。盘古可以在秒级的时间内完成全球未来全球一个小时到七天的全球的天气预报,精度也是首次超过了欧洲气象中心数值分析的方法,并且预测速度相对于传统的数字分析方法提升了1万倍以上。用在自然灾害里面,一个比如说像台风轨迹的预测,这个例子的话有三条曲线,一条是红线,一条黑线,还有一条蓝线,红线和黑线相当于 alignment 比较好,就是它的预测和盘古的预测是比较贴近的。蓝线是欧洲气象中心的数值分析预报的预测结果。盘古精度相对于传统的欧洲气象中心的数字预报方法提升了 20% 以上。
盘古气象大模型相对于业界AI 的气象模型,比如英伟达的包括欧洲气象中心的,主要的一些提升,比如预测时间过去传统是六个小时,现在是一个小时做一次预测。空间分辨率来讲的话,除了在海平面上的预测,在空间比如说海平面到高空,目前做到 13 层,将来随着我们做继续的训练,把空间的精度可以做到 37 层,甚至做到 200 层。其他对于温度的预报准确度,包括气压高度匀称度,因为气象预测有几十个要素。在台风轨迹预测上的话,我们对过去的已经发生台风 100 多个都做了详细对比,目前的精度大概是在 0.25* 0.25,大概对应的物理范围的话20 公里乘 20 公里,将来主要是针对我们收集的数据。我们用了过去 40 多年全开放的气象数据来做模型的训练。未来如果我们获得了更高精度的,比如说 10 公里小于 10 公里,或者 5 公里乘 5 公里气象数据的话,可以让气象预报做得更准。
我们用在药物分子研发上的小分子合成物的筛选方面,让传统药物研发周期从数年降到了一个月甚至 1 个月以内,大大提高了它研发周期。
空气的质量优化,我们跟合作伙伴的合作,帮助他们电力消耗降低到15%。对于空气中的二氧化碳的浓度,甲醛的浓度,以及可挥发性的有机物质的浓度的预测,都有了很大的一个提升。
我们现在已有的盘古大模型,主要针对行业的各种应用,针对传统AI 开发的难题,比如多方式的开发,一个场景一个模型的开发方式,存在样本标注、大模型维护困难、泛化能力不足、行业人手短缺等等。我们希望实现低门槛的开发,更强的泛化能力,更高更强的、更高的精度解决 AI 应用碎片化的问题。展望未来,我们也认为 AI FOR industry 将是人工智能新的爆发点。基于我们在华为云上的大数据、大算力、大模型的话,能够实现边端云协同,为我们的企业、客户、消费者和开发者提供大模型的能力。