近日,昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学等顶尖名校机构,提出通用计算机控制框架Cradle,使AI Agent无需训练便能像人一样直接控制键盘鼠标,不依赖任何内部API,实现任意开闭源软件交互。
Cradle是迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架,其论文、项目、代码均已开源。
Cradle不仅能够在游戏《荒野大镖客2》中完成长达40分钟的主线任务,在《星露谷物语》中清理农场、种地、购物,在《城市天际线》中建造出千人小镇,在《当铺人生2》中和客户讨价还价,最高获得87%的周收益率;还能够用Chrome浏览网页、用Outlook发送邮件、用飞书办公;甚至能用美图秀秀修图,用剪映剪辑视频,成为真正的全能AI Agent。
游戏办公全精通
为了验证Cradle的通用性,研究者们选择了4款风格迥异,操作各不相同的经典游戏进行测试,从第三视角的3D角色扮演类游戏《荒野大镖客2》到2D固定视角的模拟经营类游戏《星露谷物语》到俯视角的城市规划类游戏《城市天际线》再到侧重交易策略的模拟经营类游戏《当铺人生2》,并分别设计了不同的任务。
在通用软件方面,Cradle团队也同样选择了5款常用软件进行测试,包括Chrome、Outlook、CapCut(剪映)、Meitu(美图秀秀)和Feishu(飞书)。
通往AGI之路
此前,大量关于AI智能体的研究都依赖于计算机内部API的信息获取,无法让AI真正“像人类一样”通过眼、脑、手的配合与计算机进行互动,其环境、行为、动作都相对固定,难以实现跨软件、跨平台的通用智能。
Cradle极大程度地扩展了智能体可以交互的范围,并且证明了将一切软件转化为测试智能体不同能力的testbed的可能性,其所提出的通用计算机控制的设定统一了输入输出的接口,促进了统一粒度数据的搜集,为未来Agent在各个环境中交互并且自我提升打下了坚实的基础。
面向数字世界的通用人工智能,正在加速到来。