引子
在先进工艺(7nm及一下)短期内无法完全实现全链国产化的大前提下
目前GPU的算力瓶颈在于“存储墙”和“功耗墙”,存算一体完美解决上述两个问题。
难题:AI计算加速的最大挑战就是数据在计算单元和存储单元之间频繁的移动。
根因:冯氏架构以计算为中心,计算和存储分离,二者配合完成数据的存取与运算。然而,由于处理器的设计以提升计算速度为主,存储则更注重容量 提升和成本优化,“存”“算”之间性能失配,从而导致了访存带宽低、时延长、功耗高等问题,即通常所说的“存储墙”和“功耗墙”。
解决:存算一体作为一种新的计算架构,被认为是具有潜力的革命性技术。核心是将存储与计算完全融合,有效克服冯·诺依曼架构瓶颈,并结合后摩尔 时代先进封装、新型存储器件等技术,减少数据的无效搬移,从而提升计算效率。中国移动已将存算一体纳入算力网络的十大关键技术,于2022年发布《存算一体白皮书》。
优势:存算技术在海量数据计算场景中拥有天然的优势,将在云计算、自动驾驶、元宇宙等场景拥有广阔的发展空间。
发展:
存算一体已经被知名研究机构和产业方确定为下一代技术趋势之一。
目前国内外存算一体企业,都是刚刚起步阶段,差距尚不大。存算一体芯片在设计层面是创新的,没有成熟的方法借用,存在弯道超车可能。
一、12月3日,阿里达摩院成功研发新型架构芯片,已经被证明能够在阿里推荐系统中发挥极大的应用价值,并受到技术圈的普遍关注。
据悉这颗芯片与数据中心的推荐系统对于带宽/存储的需求完美匹配,大幅提升带宽的同时还实现了超低功耗,充分展示了存算技术(第一代仅是近存计算)在数据中心场景的潜力。
二、5月23日,由后摩智能自主研发的业内首款存算一体大算力AI芯片成功点亮,并成功跑通智能驾驶算法模型。
后摩智能提供的大算力、低功耗的高能效比芯片及解决方案,可应用于智能驾驶、泛机器人等边缘端,以及云端推理场景。
这是业内首款基于严格存内计算架构,AI算力达到数十TOPS或者更高,可支持大规模视觉计算模型的AI芯片。与传统架构下的大算力芯片相比,该款芯片在算力、能效比等方面都具有显著的优势。
三、知存科技公司与科大讯飞合作,于2016年发布了基于Flash的MemCore001芯片,支持智能语言识别、语音降噪等多种智能语音应用。2018年,知存科技即针对智能语音应用场景设计了国际领先的高精度、低功耗Flash存算一体芯片架构,并首次应用MemCore001/MemCore001P系列芯片。并于2022年3月宣布其WTM2101芯片正式量产并推向市场,WTM2101的AI算力高达50Gops,相较于可穿戴设备现有芯片在AI算力上有数十倍到百倍的提升。
四、美国存算一体AI芯片初创公司Mythic于2020年底推出第一代AI芯片M1108,该芯片采用更加成熟的模拟计算技术,使得网络边缘设备访问更加容易。在典型的深度神经网络工作负载下,M1108可达到每秒35万亿次操作的峰值性能,功耗仅为4W。Mythic在今年C轮融资中筹集7,000万美元,由美国云服务供应商慧与科技和著名投资管理机构贝莱德领投,自成立以来Mythic的总融资额已达到1.65亿美元。
五、如今国内外众多企业都已经开展存算一体技术的研发,包括英特尔、SK海力士、IBM、美光、三星、台积电、阿里等传统芯片大厂,以及众多新兴AI和存储企业,比如亿铸科技、千芯科技、后摩智能、(前面为大算力存算一体芯片,后面为小算力存算一体芯片) 闪易半导体、苹芯科技、知存科技、智芯科、九天睿芯、恒烁半导体等。
结语:存算技术在海量数据计算场景中拥有天然的优势,将在云计算、自动驾驶、元宇宙等场景拥有广阔的发展空间。
目前存算技术正处在从学术领域到工业产品落地的关键时期,随着存算技术的不断进步和应用场景的不断催生,预计存算一体技术将成为AI计算领域的主要架构。