ChatGPT除了数学不太好,其他方面都很强,会编程、写论文,回答任何问题,还能发现一些人类无法理解的规律。之所以这么厉害,主要就是因为GPD里的T。
全称是Transformer。
顺便说一句,率先学会使用AI的程序员,工作效率会更高,做得更好,工作会更稳固。程序员这个职业不会被AI淘汰掉,但是不会使用AI的程序员就不好说了。
还有一些职业是有可能会被整体淘汰掉的,比如说翻译,现在AI翻译的水平相当高,像我这样的也能大概明白ChatGPT它到底是个啥。
chat是聊天的意思,但是我们最好不要和他聊天,否则会有一定的风险。我个人觉得这个问题比较重要。T是生成,P是预训练,T就是它的核心架构模式,也就是说它是一个基于T模式架构,经过预先训练,通过对话的方式生成内容的机器工具。
知道他的学习训练方式,就能理解他为啥这么厉害,以及反过来更理解人类的大脑。
早期的人工智能主要是通过模式匹配的方式来训练的,需要事先设定一些规则和关键词,如果输入什么什么关键词,那么输出什么什么结果。
比如,你输入推荐几部感人的电影,机器识别出其中的关键词感人电影,就可以从数据库里搜索已经被标注为“电影”的东西,再把其中标注为“感人的”筛选给你,它不需要理解你说的内容,只要触发相应的关键词就行。
但是,如果你输入有哪些值得一看的催泪大片,它可能就懵了,除非事先把各种可能遇到的关键词全部都设定进去,但是这个世界上的各种问题、说法、答案都是不可能穷尽的。
早期的人工智能看似智能,实际上背后有大量的人工,事先设定无数的如果,那么也只能回答一些标准化的简单问题。
还有很多知识对人类来说是很容易的,但是无法教会给机器。最经典的例子就是如何让机器识别出一只猫,我们不可能用语言描述清楚到底什么是猫,有四条腿,有猫有尾巴,那和狗又有什么区别呢?
事先设定无数的如果,那么都必然会有遗漏,根本说不清楚。
但是人类很小的小朋友都不用怎么教,看几次就自己会了,说明人类大脑有独特的学习方式,有可能应用到机器学习的领域。
于是就有了模仿人类大脑神经元的计算机神经网络输入层输入信息,中间隐藏层负责分析处理,最后输出层给出结果。而多搭建几个隐藏层,让机器拥有更多的神经元,就能处理更复杂的问题了,这个就是深度学习。
深度就是更多的隐藏层及其算法中更多的隐藏单元。深度学习是现在AI的主要学习方式,图像识别、下棋AI以及ChatGPT都是这样训练出来的。
比如识别一只猫的问题,不再试图给机器讲清楚什么是猫,而是给它大量的人工标记好的包含猫的图片以及没有猫的图片作为负反馈。
然后让机器自己看,自己总结规律,再进行测试,如果识别率不高,就把各个参数进行微调,继续训练。
直到某一天,识别率越来越高,给它任意一张图片,都能精准地识别出到底有没有猫,那它就算是学会了。至于是怎么学会的,哪些参数起了关键作用。
谁也不知道。
会下围棋的AI,刚开始也要进行深度学习,给他几万甚至几百万个棋局、棋谱,再加上专门的一些算法强化学习,看多了就会了。
2016年,会下围棋的机器人战胜了人类顶尖高手,已经很强了,但是它的升级版更厉害。
已经不再需要学习人类的经验了,而是自己和自己下棋,提高决策水平。在和人类棋手下棋的时候,一些走法就匪夷所思了。
比如突然某一步下在一个特别莫名其妙的地方,从来没有任何棋局棋谱会这样下,要么是系统bug走了昏招,要么就是AI的水平已经超出人类的理解范围了。
而结果往往就是后者,AI就是能赢,还赢得让人类无法理解。
这种AI的确非常强大,但是也有缺陷,就是他只会下围棋,让他打个麻将就肯定不会了。
或者说标准的围棋棋盘是19乘19的,如果换一个15乘15的棋盘,他可能也就懵了,不会玩了。
GPT的训练同样是模仿人类大脑的深度学习,给它无数的文章对话,事先标注好分类,比如科技类的、体育类的、游戏类,再标注清楚哪些是人名,哪些是地名,哪些是电影名等等。
或者是成堆的问答,比如一只兔子几条腿?一只兔子两条腿,一只猫有几条腿?一只猫有四条腿。
不用给他解释什么是兔子,什么是猫,什么是腿,训练投入的语料规模足够大,看得足够多,他可能就真的自己理解了。
当然,如果测试结果不理想,还是要把它上千亿个参数进行微调,再继续训练,再测试,再微调,这种监督学习进行得差不多就可以进行无监督学习了。
给它无数的新的资料,没有任何事先的标注,也没有啥明确的目的,就是让它自己看。
看着看着,他就忽然啥都会了,至于怎么学会的,开发设计的人也无法理解。
真正的人工智能涌现,也许就是百亿美元砸下去,投入的余料规模足够大,参数足够多,一些能力就涌现出来了。不过同样的资金、数据、参数,如果用到其他AI身上,就不一定会有这样的效果了,因为它们的架构不同。
比如输入同样的一段话,刚在电影院里看完一部电影,那里的环境不太好,爆米花也不好吃,但是电影确实不错。问不同架构的AI,这部电影到底好不好看,可能会有不同的理解。
卷积神经网络更擅长关注局部特征,很容易注意到有两个不好和一个不错,有可能会认为电影不好或者说不准。循环神经网络会按照顺序逐个词语分析,类似一层一层的下楼梯会先经过两个不好。
最先的注意力也会放在不好上面,可能也就无法正确理解。
而ChatGPT的T架构的核心就是让AI自己分配注意力,不用按照特定的顺序去处理数据,可以并行处理所有的词语,自己去分析把更多的注意力应该放在哪里。
如果是大段的文字,上下文之间的遥远关联,那不同架构的区别就会更明显。
所以ChatGPT能这么厉害,除了大量资金的投入,大量芯片算力的投入、大量语料的投喂、大规模的参数训练之外,模型本身的架构也很重要。
大概了解了GPT是如何学习的,就可以反过来更了解我们的大脑。人类的大脑不用从零开始大规模的训练,不需要调节各种参数,不用花钱去设计去试错,善于学习的基本架构就直接预装好了。
两三岁的小朋友最爱问这是什么,那是什么,这个为什么,那个为什么,只需要简单地一说,他就能记住,就能理解。稍微长大一点,大脑就已经掌握了很多基本规律,就不需要多问了,就可以自己去探索,进行无监督学习了。
好多东西根本不用教,一看就会,随着大脑神经元的相互连接,很快就可以把一个善于学习的模型完全架构好了,就等着往里面添加一些新的知识,涌现新的能力。
可惜的是,往往这个时候,我们会抵触学习新东西。
一方面可能觉得没必要了,尤其是以前学一个技能一辈子就够用了,但是现在真不一样,40岁重新找工作,50岁开始创业也很正常,不持续学习也许真的不行。
另一方面,可能对学习这个词有误解,一说就抵触。这里说的学习可不是什么物理、化学、法律、会计之类的专业知识,普通成年人没事学那些干啥呢?
除非是自己真的感兴趣,否则大脑本身抵触,硬塞进去,神经元也建立不了连接。了解任何自己感兴趣的新东西都是学习。比如现在这么多人都在说AI,要是有点兴趣就不要等,要想办法早点用上新东西,接触多了,新的想法,创意能力没准就涌现出来了。
如果实在抵触学习,抵触新的东西,也能理解,没办法勉强,只是对擅长学习的大脑来说有点可惜了。就相当于一个好用的ChatGPT的模型已经完全搭建好了,但是每天放进去的都是陈旧的、重复的东西,还误以为是模型本身不够好,学习能力不行。
其实每个人的大脑都是一样的,都挺好的。