存算一体架构:突破“内存墙”瓶颈,赋能边缘AI计算的关键技术路线分析
核心正文
冯·诺依曼架构的“内存墙”问题已成为制约现代计算系统,特别是人工智能与高能效边缘计算发展的根本性瓶颈。数据在处理器与存储器之间的频繁搬运所消耗的能耗和时延,已远超计算本身。存算一体(Computing-in-Memory, CIM)架构应运而生,其核心思想是将计算功能嵌入存储器内部或紧邻存储器,直接利用存储器阵列的物理特性(如电阻、电流、电荷)进行模拟或数字计算,从而实现数据“就地处理”,极大减少数据移动开销。
当前主流的CIM技术路线依据存储介质和计算方式可分为以下几类:
基于易失性SRAM的CIM:利用SRAM单元的高速度和成熟工艺,通过在位线(BL)或字线(WL)上执行模拟乘加(MAC)运算。通常采用模拟电流/电压叠加原理,将存储的权重(以SRAM单元存储的电荷表示)与输入激活(以电压或电流表示)相乘,并通过位线上的电流积分完成累加。该方案兼容先进CMOS工艺,设计灵活,但模拟计算受噪声、失配和非线性影响大,精度受限,多用于二进制/低位宽神经网络推理。
基于非易失性存储器(NVM)的CIM:利用忆阻器(ReRAM)、相变存储器(PCM)、磁阻存储器(MRAM)等NVM器件阻值可连续调节的特性。其典型计算模式为:将神经网络权重映射为NVM交叉阵列中器件的电导值(G),输入电压(V)施加于字线,根据基尔霍夫定律,位线上读取的电流即为该列所有单元电流之和(I = Σ V_i * G_ij),天然完成一次向量-矩阵乘法(VMM)。此路线计算能效极高,且具备非易失性,利于实现瞬时开关机,但面临器件一致性、耐久性、阻态漂移等挑战。
基于闪存/DRAM的CIM:在现有成熟存储器技术上改造。例如,利用NOR Flash的电流求和特性进行模拟计算,或改造DRAM阵列,利用其电荷共享原理在子阵列内进行位串行操作。此路线工艺继承性好,但计算密度和能效提升通常不及基于新兴NVM的方案。
赋能边缘AI计算是CIM架构最具前景的应用场景。边缘设备对功耗、延迟和隐私保护有极端要求。CIM芯片能实现极低功耗的实时推理。例如,一个基于ReRAM的CIM芯片处理一次图像分类的能效可比传统GPU架构提升1-2个数量级。关键技术路径包括:混合精度设计(关键层高精度,其他层低位宽/模拟计算)、存内计算与近内存计算的协同(将全局数据流优化与局部存内计算结合)、算法-架构协同设计(训练时考虑CIM非理想特性,进行硬件感知的神经架构搜索与模型训练)。
然而,走向大规模商用仍需解决:1) 计算精度与可靠性:模拟计算的噪声、器件差异及NVM的循环耐久性限制了计算精度,需要创新的电路(如纠错编码、灵敏放大器设计)和算法(如弹性训练、在线校准)共同补偿。2) 编译器与工具链缺失:缺乏成熟的软件栈将主流AI框架(如TensorFlow, PyTorch)模型高效映射到底层异构的CIM硬件。3) 测试与验证复杂性:模拟/混合信号计算的大规模阵列测试难度远高于数字电路。
本文要点
存算一体架构通过消除“内存墙”带来的数据搬运开销,为实现超高能效的边缘AI计算提供了根本性解决方案。
SRAM-CIM、NVM-CIM和基于成熟存储器的CIM是三条主要技术路线,各具优劣,其中基于NVM的路线在能效和密度上潜力最大,但器件非理想性挑战也最突出。
未来成功的关键在于算法、架构、电路与器件技术的紧密协同设计,以及配套的软件工具链生态的构建。
拓展阅读
Chen, Y., et al. A 65nm 3T Dynamic Analog RAM-Based Computing-in-Memory Macro and CNN Accelerator with 8-bit Precision[J]. IEEE Journal of Solid-State Circuits, 2023, 58(1): 85-97.
Li, C., et al. Analog Content-Addressable Memory from Complementary Resistive Switches for Artificial Neural Networks[J]. Nature Electronics, 2021, 4(7): 521-529.
