12月7日凌晨,谷歌(Google)在发布多模态大模型Gemini的同时,还推出了全新的面向云端AI加速的TPU v5p ,这也是谷歌迄今为止功能最强大且最具成本效益的 TPU(云张量处理单元)。
据介绍,每个 TPU v5p Pod 由多达 8,960 个芯片组成,使用最高带宽的芯片间连接(每芯片 4,800 Gbps)进行互连,确保快速传输速度和最佳性能。
在AI性能方面,TPU v5p能够提供459 teraFLOPS(每秒可执行459万亿次浮点运算)的bfloat16(16位浮点数格式)性能或918 teraOPS(每秒可执行918万亿次整数运算)的Int8(执行8位整数)性能,支持95GB的高带宽内存,能够以2.76 TB/s的速度传输数据。
与TPU v4相比,新发布的TPU v5p具有两倍的FLOPS(每秒浮点运算)和三倍的高内存带宽提升,这在人工智能领域是令人惊叹的。
此外,在模型训练方面,TPU v5p 在 LLM(大语言模型)训练速度上显示出 2.8 倍的代际提升,即使相比TPU v5e也有约50%的提升。Google还挤出更多的计算能力,因为 TPU v5p“就每个 Pod 的总可用 FLOP 而言,可扩展性比 TPU v4 高 4 倍”。
总结来说,TPU v5p与 TPU v4 相比:
浮点运算次数增加了 2 倍(459 TFLOPs Bf16 / 918 TOPs INT8)
内存容量比 TPU v4 (95 GB HBM) 高出 3 倍
LLM 培训速度提高 2.8 倍
嵌入密集模型训练速度提高 1.9 倍
带宽增加 2.25 倍(2765 GB/秒 vs 1228 GB/秒)
芯片间互连带宽是原来的 2 倍(4800 Gbps 与 2400 Gbps)
谷歌已经认识到在拥有最好的硬件和软件资源方面取得了明显的成功,这就是该公司拥有人工智能超级计算机的原因,它是一组旨在协作工作以实现现代人工智能工作负载的元素。谷歌集成了性能优化计算、最佳存储和液体冷却等功能,以充分利用巨大的功能,输出的性能确实是行业领
【科德教育】参股8%的中昊芯英为国内自主AI芯片龙头,不排除未来进一步合作可能
(来自韭研公社APP)