理解能力,尤其是中文理解能力
第一波,先来看看文心大模型4.0的理解能力。
这里我们主要考考它应对“语言陷阱”的能力,以及网络段子的“识别力”。
先来个中文十级能力测试题,考考大模型究竟懂不懂“真的假的”是什么意思。
文心大模型4.0的回答很简洁,直接给出答案。 GPT-4则要每一句话都仔细分析句意,最后再给出回答: 虽然更仔细,但总感觉有点像是在认真做中文测试的歪果仁(doge)。
再来上点难度,“小偷偷偷偷东西”。
文心大模型4.0很快拆解出了“小偷”、“偷偷”和“偷东西”三个词,get到了这句话的意思:
不过,GPT-4反而一头“栽”进了这个陷阱中,以为中间的两个“偷”也是动词,最后还漏了一个偷…… 考查完语言陷阱后,再来看看双方对网络段子的理解。 针对“哪李贵了”这个本土梗,文心大模型4.0很快给出了答案,人物事件都直观: GPT-4如果没有开搜索,会get不到2022年1月之后的梗: 但如果打开搜索,很快也能“与时俱进”,给出这个问题的答案: 同理,我们也试了试从国外传入国内的梗。
文心大模型4.0和GPT-4都能回答出来,文心大模型4.0更概要一些,GPT-4则是直接搬运了一套百科(更详细,但tokens也更贵……): 网络段子测评看下来,文心大模型4.0和加了搜索的GPT-4可以说是各有千秋。
多模态生成能力
那么接下来这波,就要考验当下最受关注的大模型多模态生成能力了。
先来试试图像生成能力,顺便考查一下对古诗“孤舟蓑笠翁,独钓寒江雪”的理解。
文心大模型4.0很快给出了4张图像,风格和基本意境都比较符合:
GPT-4也利用DALL·E 3画出了4幅画,同样画风各异: 这一次双方打了个平手。
那么视频生成呢?这里我们调用一下文心大模型4.0的自带插件,本想着只是生成一段落叶剪辑,没想到连文案和字幕语音都配好了,完成度很高那种:
GPT-4本体目前还不支持生成视频,需要借助外部插件(如Capcut)实现这一功能。
逻辑能力然后,就到了我们喜闻乐见的数学计算+逻辑推理能力测试了。
文心大模型4.0说是重点升级了数学计算能力,我们也不客气,直接上难倒一片大模型的Old McDonald问题:
在Old McDonald的农场里养着一匹马、两头牛和三只羊。请问农场还需要再养多少头牛,才能使得所有动物的总数量恰好是牛的总数量的两倍?
文心大模型4.0一口气列出了4个未知数(doge),但解题过程还是比较严谨的,最终答案也没有问题。 此前,我们曾将这个问题喂给Claude、ChatGPT等一众大模型,“横向评测”过一波它们的数学能力,当时只有GPT-4能做出来。
接下来,直接上弱智benchmark,考考
逻辑推理能力。
第一个问题,文心大模型4.0和GPT-4都很快给出了正确答案: 第二个问题,双方的回答也很快,文心大模型4.0还顺口给出了“七分海洋三分陆地”的地理题背诵口诀:
看起来双方的数学、逻辑都不错,点个赞。 记忆能力
大语言模型公认的评判标准之一,是多轮对话能力。GPT-4的多轮对话已经有不少测试了,我们再来简单看看文心大模型4.0的效果。
先来解读一下长论文,没什么问题: 以这个为主题写一首诗歌,顺便让它改成英文,也能hold住:
试试让它改得押韵一点,no problem:
最后再来提问一下诗歌中用到的Transformer知识点,并挑出其中的某个知识点要求解释原理,也信手拈来:
另外,试着将上文中的知识点用“它”代替,文心大模型4.0同样能承接上文的对话,并给出相关知识回答。
看来无论是长文本解读、还是多轮对话,可以说都是难不倒文心大模型4.0了。
附加题
正经测试完毕,咱们最后整点乐子(doge)。
这段时间,一道神奇的考题又被拎出来,在小红书等社交媒体上“难倒众人”,题面是这样的:
根据中华人民共和国婚姻法,以下谁能结婚?A、林黛玉和贾宝玉B、贾琏和尤二姐C、杨过和小龙女D、张起灵和吴邪
乍一眼还真看不出答案,不如交给文心大模型4.0和GPT-4回答试试。
文心大模型4.0给出的回答算是有理有据,虽然细看仍有一点bug,但整体问题不大。 然而当我们将这个问题抛给GPT-4的时候,它先是停顿了好一会,然后直接被“急出母语”(doge)
翻译一下大概就是,GPT-4认为D选项是正确的……
我们再尝试一遍。这次GPT-4倒是用中文回答了,只不过好像开始打起了太极,对于每一个选项,它的回答都是:
在现实中,他们的结婚资格取决于他们是否符合中国的婚姻法律规定。测到这里,不妨做个小小的总结:
整体来看,与GPT-4相比,文心大模型4.0在综合能力上确实不落下风,尤其是在中文理解能力和通用知识能力上甚至更好。