赋能边缘AI计算的关键技术路线分析-忆果文化-石家庄忆果文化传播有限公司_学术服务_广告传播_知识产权

存算一体架构：突破“内存墙”瓶颈，赋能边缘AI计算的关键技术路线分析

核心正文

冯·诺依曼架构的“内存墙”问题已成为制约现代计算系统，特别是人工智能与高能效边缘计算发展的根本性瓶颈。数据在处理器与存储器之间的频繁搬运所消耗的能耗和时延，已远超计算本身。存算一体（Computing-in-Memory， CIM）架构应运而生，其核心思想是将计算功能嵌入存储器内部或紧邻存储器，直接利用存储器阵列的物理特性（如电阻、电流、电荷）进行模拟或数字计算，从而实现数据“就地处理”，极大减少数据移动开销。

当前主流的CIM技术路线依据存储介质和计算方式可分为以下几类：

基于易失性SRAM的CIM：利用SRAM单元的高速度和成熟工艺，通过在位线（BL）或字线（WL）上执行模拟乘加（MAC）运算。通常采用模拟电流/电压叠加原理，将存储的权重（以SRAM单元存储的电荷表示）与输入激活（以电压或电流表示）相乘，并通过位线上的电流积分完成累加。该方案兼容先进CMOS工艺，设计灵活，但模拟计算受噪声、失配和非线性影响大，精度受限，多用于二进制/低位宽神经网络推理。
基于非易失性存储器（NVM）的CIM：利用忆阻器（ReRAM）、相变存储器（PCM）、磁阻存储器（MRAM）等NVM器件阻值可连续调节的特性。其典型计算模式为：将神经网络权重映射为NVM交叉阵列中器件的电导值（G），输入电压（V）施加于字线，根据基尔霍夫定律，位线上读取的电流即为该列所有单元电流之和（I = Σ V_i * G_ij），天然完成一次向量-矩阵乘法（VMM）。此路线计算能效极高，且具备非易失性，利于实现瞬时开关机，但面临器件一致性、耐久性、阻态漂移等挑战。
基于闪存/DRAM的CIM：在现有成熟存储器技术上改造。例如，利用NOR Flash的电流求和特性进行模拟计算，或改造DRAM阵列，利用其电荷共享原理在子阵列内进行位串行操作。此路线工艺继承性好，但计算密度和能效提升通常不及基于新兴NVM的方案。

赋能边缘AI计算是CIM架构最具前景的应用场景。边缘设备对功耗、延迟和隐私保护有极端要求。CIM芯片能实现极低功耗的实时推理。例如，一个基于ReRAM的CIM芯片处理一次图像分类的能效可比传统GPU架构提升1-2个数量级。关键技术路径包括：混合精度设计（关键层高精度，其他层低位宽/模拟计算）、存内计算与近内存计算的协同（将全局数据流优化与局部存内计算结合）、算法-架构协同设计（训练时考虑CIM非理想特性，进行硬件感知的神经架构搜索与模型训练）。

然而，走向大规模商用仍需解决：1) 计算精度与可靠性：模拟计算的噪声、器件差异及NVM的循环耐久性限制了计算精度，需要创新的电路（如纠错编码、灵敏放大器设计）和算法（如弹性训练、在线校准）共同补偿。2) 编译器与工具链缺失：缺乏成熟的软件栈将主流AI框架（如TensorFlow, PyTorch）模型高效映射到底层异构的CIM硬件。3) 测试与验证复杂性：模拟/混合信号计算的大规模阵列测试难度远高于数字电路。

本文要点

存算一体架构通过消除“内存墙”带来的数据搬运开销，为实现超高能效的边缘AI计算提供了根本性解决方案。
SRAM-CIM、NVM-CIM和基于成熟存储器的CIM是三条主要技术路线，各具优劣，其中基于NVM的路线在能效和密度上潜力最大，但器件非理想性挑战也最突出。
未来成功的关键在于算法、架构、电路与器件技术的紧密协同设计，以及配套的软件工具链生态的构建。

拓展阅读

Chen, Y., et al. A 65nm 3T Dynamic Analog RAM-Based Computing-in-Memory Macro and CNN Accelerator with 8-bit Precision[J]. IEEE Journal of Solid-State Circuits, 2023, 58(1): 85-97.
Li, C., et al. Analog Content-Addressable Memory from Complementary Resistive Switches for Artificial Neural Networks[J]. Nature Electronics, 2021, 4(7): 521-529.

赋能边缘AI计算的关键技术路线分析

| 电子信息