背景:2023年3月16日,“AI工程化论坛暨MLOps实践指南发布会”在京举办。会上,中国信息通信研究院(简称”中国信通院“)发布《人工智能研发运营体系(MLOps)实践指南(2023年)》。
一、MLOps概念渐晰,为解决AI生产过程管理问题意义明显。MLOps是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高AI模型生产质效,推动AI从满足基本需求的“能用”变为满足高效率、高性能的“好用”,有效化解模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。
二、国内外MLOps发展百花齐放,落地仍面临问题和挑战。2015年至今,从业界意识到机器学习项目技术债给AI生产上线带来的潜在巨大影响伊始,MLOps前后经历了斟酌发酵、概念明确、落地应用三大阶段,且随着新工具不断涌现,在IT、金融、电信等行业得到了广泛应用和落地。但在这个渐进式发展过程中,MLOps落地面临着诸多挑战,包括组织落地驱动力不足、支撑工具选型难集成难、模型治理和可信道阻且长、环境间的交互难以平衡等。
三、围绕流水线的构建,MLOps框架体系逐步完善。基于机器学习项目全生命周期,以CI/CD/CT/CM为核心,通过构建各条机器学习流水线,包含需求分析与开发、数据工程流水线、模型实验工程流水线、持续集成流水线、模型训练流水线、模型服务流水线、持续监控流水线,MLOps全生命周期闭环框架逐步完善。
四、渐进式建设关键能力,MLOps落地效应逐步形成。通过数据处理、模型训练、构建继承、模型服务、运营监控、模型重训、实验管理和流水线管理等能力的建设,形成MLOps过程管理能力的全面把控。通过特征管理、模型管理和仓库管理等能力的建设,形成制品管理能力的提升。同时以模型安全作为AI生产过程中的关键保障之一,MLOps落地效应日益凸显。
在过去几年中,人工智能和机器学习( ML )在主流企业中的角色发生了变化。一旦研究或高级开发活动,它们现在为生产系统提供了重要的基础。
随着越来越多的企业寻求用人工智能和 ML 改造业务,越来越多的人在谈论 MLOps 。如果你一直在听这些对话,你可能会发现几乎所有参与的人都同意你需要一个 MLOps 战略来将 ML 投入生产。
要了解更多信息,请与我一起参加 NVIDIA GTC 2023 的 Enterprise MLOps 101 ,这是对企业 MLOps 环境的介绍。我将与我的同事迈克尔·巴林特一起介绍会议。
MLOps 对话令人困惑,主要原因如下。
MLOps 是一个宽泛的术语,描述了使组织能够设计、开发和维持生产 ML 系统的技术、流程和文化。几乎任何与常规软件开发、数据管理或与生产 ML 系统相关的商业智能 could be 相关的工具或系统。
由于 MLOps 是一个热门话题,因此许多与生产 ML 系统相关的此类工具和系统已重新命名,以强调其与 MLOps 的联系。
机器学习系统是复杂的软件系统。不同的组织和从业者将采取不同的方法来管理这种复杂性,就像他们管理构建和维护传统软件系统的复杂性一样。
然而,由于组织在构建传统软件的过程中并没有构建生产 ML 系统,因此标准化方法尚未建立。用于描述这些系统的语言以及评估这些系统的标准也缺乏标准化。
当不同的人谈论 MLOps 时,可能会感到困惑,因为他们可能在描述问题空间的不同部分。例如,对其用例、行业或组织流程和工具最重要的部分。
MLOps 非常复杂。然而,由于经验丰富的 MLOps 从业者和组织专注于其特定方法和工具的细节,他们倾向于强调其复杂性。问题的一部分是,在生产机器学习这样的不断发展的领域中,很难弄清楚如何区分偶然复杂性和本质复杂性,以便呈现复杂问题的简单视图。
开始接近 MLOps 的一个更好的方法是思考您的组织今天在机器学习方面正在做什么,您希望在未来做什么,以及您将因此在机器学习系统方面面临哪些挑战。
不同的 ML 问题对 ML 系统提出了不同类型的要求。涉及非结构化数据的问题,如理解视频、音频或自然语言,与涉及表格业务数据的问题相比,需要付出更多的努力(包括人工努力)来标记训练示例,在表格业务数据中,标记工作通常是微不足道的或自动化的。
一些问题得益于只需要从单一来源立即获得的数据的模型,而其他方法和问题则取决于将来自多个来源的历史数据和聚合数据与新的观测结果联合起来进行预测。 ML 的新应用程序可能受益于对实验性和探索性开发的更好支持,而成熟系统可能受益于开发过程自动化。
最后,为了验证其适用性和安全性,需要在一系列条件下(包括不太可能或对抗性场景)模拟自动化可能影响人类生命、控制危险机器或管理金融投资组合的关键决策的系统。如果您正在处理包含特殊需求的问题,请确保您找到了能够帮助您满足这些需求的 MLOps 解决方案。
类似地,一些应用领域和业务需求对机器学习系统提出了技术要求。受监管行业的应用程序通常受益于能够复制和解释历史结果,例如解释金融承销讨论或显示用户的个人数据未用于培训模型。
对延迟敏感的应用程序,如搜索、媒体推荐和广告定位,可以从支持低延迟预测的基础设施中受益,并从更多和更少复杂模型的集合中提供结果,以改善最坏情况下的响应时间。许多感知问题将受益于转移学习的基础设施和能够处理和优化大型复杂模型的服务框架。
正如整个 ML 环境不断发展一样,数据团队的角色和角色也在不断发展。在 2010 年代早期,“数据科学家”是一个全面的角色,承担着大量的数据工程和软件开发责任,同时也具有一定的统计复杂性。如今,数据科学家的专业化程度要高得多。团队现在通常包括以下角色:
数据科学家 专注于设计和执行实验,以识别和利用数据中的模式,使用基本摘要和聚合、应用统计和机器学习等工具。
数据工程师 使数据(无论是结构化的还是非结构化的、静态的还是动态的)可以大规模使用,并解决了编目、治理和访问控制方面的问题。
业务分析师 使用结构化联邦数据集上的查询处理来理解业务问题的特征。
应用开发者 通过基于数据科学家的实验开发成熟和健壮的服务,与数据工程师维护的数据服务集成,以及开发传统应用程序组件和与企业中间件的集成来构建生产系统。
机器学习工程师 的职责涉及多个角色,但特别关注开发、维护和优化生产基础设施。
思考您的数据团队中目前有哪些人参与,以及您将来希望有哪些人参加,这是评估 MLOps 工具、系统和解决方案的一个重要方面。这个评估告诉你什么对你的团队很重要,谁是给定解决方案的受众。
在考虑了您试图解决的问题和数据团队的组成后,您准备根据您和您的组织需要的解决方案来评估和了解 MLOps 环境。您的目标是支持您自己的机器学习计划,而不是根据供应商和影响者对 MLOps 的看法来理解 MLOps 环境。
详情MLOps 技术参看英伟达官网发布