PaLM是谷歌在22年发布的语言大模型,它是Pathways架构训练出来的,能通过“思考过程提示”获得更准确的逻辑推理能力,减少AI生成内容中的错误和胡言乱语。
Pathways是一种稀疏模型架构,是谷歌AI这两年重点发展方向之一,目标就是训练出可执行成千上百种任务的通用模型。
ViT是计算机视觉领域的经典工作了,即VisionTransformer。
两者结合后,PaLM-E可以处理多模态信息。包括:
语言
图像
场景表征
物体表征
通过加一个编码器,模型可以将图像或传感器数据编码为一系列与语言标记大小相同的向量,将此作为输入用于下一个token预测,进行端到端训练。
具体能力方面,PaLM-E表现出了比较强的逻辑性。比如给它一张图片,然后让它根据所看到的做出蛋糕。
模型能先判断出图像中都有什么,然后分成9步讲了该如何制作蛋糕,从最初的磕鸡蛋到最后洗碗都包括在内。
还有根据图片做判断:我能在这条路上骑自行车吗?模型进行一系列逻辑推断:
1、不能进入
2、除了自行车
3、除了自行车以外都不能进入
4、答案是可以
这和人类思考的过程确实很像了。不仅如此,模型的最强大之处在于,它无需经过预处理,即提前理解环境。它做出判断和回答,完全是基于它自己的“经验”。研究人员表示,这项成果表现出了很强的正向迁移能力。
在多个领域任务的训练中,PaLM-E的表现都优于单项任务机器人模型。
从openAI的GPT-4模型到谷歌的PaLM-E,说明多模态的时代已经到来!