最近大家对ChatGPT已经有了一定的了解,尽管ChatGPT非常强大,但 OpenAI 几乎不可能将其开源。
然而,前几周Meta发布了自家的大型语言模型LLaMA,其参数量从70亿到650亿不等。根据论文,仅使用LLaMA的1/10参数(130亿)就能在大多数基准测试中超越GPT-3。而650亿参数的LLaMA则与DeepMind的Chinchilla(700亿参数)和谷歌的PaLM(5400亿参数)旗鼓相当。在一次意外的泄露事件后,LLaMA成为了开源的大模型。随着LLaMA的开源,各种基于LLaMA的ChatGPT模型层出不穷。
例如,Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅使用了52k条数据,性能约等于GPT-3.5。Vicuna则是由UC伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员开源的,它是一个与GPT-4性能相匹配的LLaMA微调版本。而来自UC伯克利 AI Research Institute(BAIR)的新模型Koala,不同于之前使用OpenAI的GPT数据进行指令微调,而是使用网络获取的高质量数据进行训练。
ChatLLaMA是一个由初创公司Nebuly AI开源的项目,由于LLaMA大模型系列没有使用RLHF方法,因此该项目提供了RLHF版LLaMA(ChatLLaMA)的训练方法。它的训练过程类似于ChatGPT,该项目允许基于预训练的LLaMA模型构建ChatGPT形式的服务。这是一个使用自己的数据创建对话助手的框架,“贾维斯”正在路上。
FreedomGPT是一个桌面应用程序,使用Electron和React构建,允许用户在他们的本地机器上运行LLaMA。与ChatGPT不同,FreedomGPT回答问题时没有偏见或偏袒,并且回答有争议或争论性的话题时也不会犹豫。
最后是ColossalChat,它来自UC伯克利,基于LLaMA预训练模型,具有中英文双语能力,通过在大语言模型基础上的RLHF微调,复刻了完整的RLHF过程,是目前最接近ChatGPT原始技术路线的开源项目。
以上是在短短一个月内推出的几个项目,这些模型都是基于LLaMA进行微调、训练而得来,后续开源类ChatGPT模型将不断推陈出新。随着越来越多的大型语言模型的推出和开源,开发者们可以更加灵活地利用这些模型来构建自己的AI应用。
对于AI模型来说,算力是必不可少的,针对于国内外大厂,各大公司都在投资建造超级计算机和数据中心。除了算力外,存储也是AI开发中的重要因素。大型语言模型的参数量通常都很大,因此需要巨大的存储空间。最后,数据是训练和微调AI模型的另一个关键要素。模型的性能和准确性很大程度上取决于训练数据的质量和数量。
综上所述,随着越来越多的开源类ChatGPT模型的推出,算力+数据将继续是AI高速发展不可或缺的燃料。