从架构图来看,TaskMatrix可以被分为四部分:
多模态对话基础模型(MCFM):与用户对话并了解需求,从而生成API可执行代码以完成特定任务
API平台:提供统一API格式,存储数百万个不同功能的API,允许扩展和删除API
API选择器:负责根据MCFM生成的内容推荐API
API执行器:调用API并执行生成代码,给出结果
简单来说,MCFM负责生成解决方案,API选择器从API平台中选取API,随后API执行器基于MCFM生成的代码调用API,并解决任务。
其中,为了统一API管理,API平台又给API统一了文档格式,包含以下五个部分:
API名称(提供API摘要,避免与其他API混淆),参数列表(包含输入参数和返回值等),API描述(功能描述),组合指令(如何组合多个API完成复杂用户指令)
例如这是“打开本地文件”API的文档格式:
据微软介绍,搭建TaskMatrix的原因,从学术角度来说主要有两点。
其一,扩大AI适用范围,如通过扩展API来提升可完成任务的类型和数量;其二,便于进一步提升AI可解释性,通过观察AI分配任务的方式就能理解它的“思路”。
能完成什么任务了?
目前从已经搭建好的TaskMatrix部分来看,它能完成的任务已经非常广泛。
小到文字、图像信息的基础信息处理,大到控制机器人平台、接入物联网这种通用平台任务,TaskMatrix都能搞定。
再进一步到通用任务上,之前一直存在瓶颈的机器人和物联网等平台,如今TaskMatrix也给出了解决通用任务的方案。
前有英伟达主打边缘计算的Jetson AGX Orin,现在微软提出TaskMatrix多任务处理模型,无疑AI的终极应用将会是智能终端,万物互联!