后ChatGPT时代下的大模型“算力难”问题,“快、好、省”的解法,又来了一个。
就在今天,享有“AI界奥运会”之称的全球权威AI基准评测MLPerf Inference v3.0,公布了最新结果——
来自中国的AI芯片公司,墨芯人工智能(下文简称“墨芯”),在最激烈的ResNet50模型比拼中夺冠!
而且在此成绩背后,墨芯给大模型时代下的智能算力问题,提供了一个非常具有价值的方向——
它夺冠所凭借的稀疏计算,堪称是大模型时代最不容忽视的算力“潜力股”。
不仅如此,墨芯此次还是斩获了开放任务分区“双料冠军”的那种:
墨芯S40计算卡,以127,375 FPS,获得单卡算力全球第一;
墨芯S30计算卡,以383,520 FPS算力,获整机4卡算力全球第一。
而且墨芯靠着这套打法,在制程方面更是用首颗稀疏计算芯片12nm的AntoumⓇ打败了4nm。
不得不提的是,这次对于墨芯而言,还是“梅开二度”;因为它在上一届MLPerf,凭借S30同样是拿下了冠军。
在与GPT-3参数相当的开源LLM——1760亿参数的BLOOM上,4张墨芯S30计算卡在仅采用中低倍稀疏率的情况下,就能实现25 tokens/s的内容生成速度,超过8张A100。
更多见 https://mp.weixin.qq.com/s/KJCIjhqClBzcqfi-qtJp-A