异动
登录注册
大模型层出不穷,算力+数据才是关键
Gnoix
满仓搞的龙头选手
2023-04-10 18:00:45

最近大家对ChatGPT已经有了一定的了解,尽管ChatGPT非常强大,但 OpenAI 几乎不可能将其开源。

然而,前几周Meta发布了自家的大型语言模型LLaMA,其参数量从70亿到650亿不等。根据论文,仅使用LLaMA的1/10参数(130亿)就能在大多数基准测试中超越GPT-3。而650亿参数的LLaMA则与DeepMind的Chinchilla(700亿参数)和谷歌的PaLM(5400亿参数)旗鼓相当。在一次意外的泄露事件后,LLaMA成为了开源的大模型。随着LLaMA的开源,各种基于LLaMA的ChatGPT模型层出不穷。



例如,Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅使用了52k条数据,性能约等于GPT-3.5。Vicuna则是由UC伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员开源的,它是一个与GPT-4性能相匹配的LLaMA微调版本。而来自UC伯克利 AI Research Institute(BAIR)的新模型Koala,不同于之前使用OpenAI的GPT数据进行指令微调,而是使用网络获取的高质量数据进行训练。

ChatLLaMA是一个由初创公司Nebuly AI开源的项目,由于LLaMA大模型系列没有使用RLHF方法,因此该项目提供了RLHF版LLaMA(ChatLLaMA)的训练方法。它的训练过程类似于ChatGPT,该项目允许基于预训练的LLaMA模型构建ChatGPT形式的服务。这是一个使用自己的数据创建对话助手的框架,“贾维斯”正在路上。

FreedomGPT是一个桌面应用程序,使用Electron和React构建,允许用户在他们的本地机器上运行LLaMA。与ChatGPT不同,FreedomGPT回答问题时没有偏见或偏袒,并且回答有争议或争论性的话题时也不会犹豫。

最后是ColossalChat,它来自UC伯克利,基于LLaMA预训练模型,具有中英文双语能力,通过在大语言模型基础上的RLHF微调,复刻了完整的RLHF过程,是目前最接近ChatGPT原始技术路线的开源项目。

以上是在短短一个月内推出的几个项目,这些模型都是基于LLaMA进行微调、训练而得来,后续开源类ChatGPT模型将不断推陈出新。随着越来越多的大型语言模型的推出和开源,开发者们可以更加灵活地利用这些模型来构建自己的AI应用。


对于AI模型来说,算力是必不可少的,针对于国内外大厂,各大公司都在投资建造超级计算机和数据中心。除了算力外,存储也是AI开发中的重要因素。大型语言模型的参数量通常都很大,因此需要巨大的存储空间。最后,数据是训练和微调AI模型的另一个关键要素。模型的性能和准确性很大程度上取决于训练数据的质量和数量。

综上所述,随着越来越多的开源类ChatGPT模型的推出,算力+数据将继续是AI高速发展不可或缺的燃料。

作者在2023-04-10 18:01:31修改文章
作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
中芯国际
S
中文在线
工分
9.39
转发
收藏
投诉
复制链接
分享到微信
有用 6
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 九万
    一路向北的老司机
    只看TA
    2023-04-10 20:57
    算力持续看好
    0
    0
    打赏
    回复
    投诉
  • 1
前往