人工智能加速需求由训练(training)和推理 (inference)推动的。高度专用的处理器(或者称 AI 加速器)孕育而生,以管理这些任务所需要的规模巨大且不断变化的计算强度。在数据中心中,具有高度并行、大量复制的计算结构的 AI 加速器正被用于训练数千万到数亿个神经元,而其功耗仅为通用 CPU 和 GPU 的一小部分。
当下已经出现了多种多样的硬件平台来满足从数据中心到边缘的 AI 计算需求。然而,为当前及未来的 AI 应用创建芯片并非易事。设计人员必须解决许多技术挑战,涉及到广泛的AI算法以及相应的硬件架构异构。设计人员还需要克服高性能、低功耗物理设计所带来的复杂性和成本问题。
业界正在提出广泛的异构计算架构来加速计算,同时降低每次运算的总功耗。每个 AI 应用都有专门的计算、内存和互连需求。除了 AI 加速器功能本身之外, AI 芯片还包含各种其他组件。例如,数据中心设备与 AI 数据中心之间必须具有可靠且可配置的连接,而边缘设备则应当包含与传感器、图像、音频等之间的实时接口(图2)。内存选择则对于在低功耗条件下满足低延迟访问要求尤为重要。
在卷积神经网络(CNN)上,进行三个16x16像素图像的 RTL 仿真对任何软件模拟器而言,都超出了当前业界最先进水平。Synopsys ZeBu 是业界速度最快的仿真系统,也是唯一经过验证的解决方案,能够满足全AI芯片仿真的容量和速度需求。与其他解决方案相比较,它提供了最高的容量(190亿个以上门限)和最低的拥有成本(功耗降低5倍,数据中心占用空间减少一半)。ZeBu 具有 AI 性能可视化功能,其中包括图形追溯、张量图吞吐量分析、内存性能分析等等。
针对硬件加速对AI模型进行优化
ASIP Designer 是一套业界领先的工具,用于设计完全可编程处理器以及AI加速器。ASIP Designer 通过自定义数据路径,自动化高度并行的、完全软件可编程的硬件的实现,并针对硬件处理和软件算法迭代优化了 AI 模型。(图4)
总结
许多创新性应用正在推动具有 AI 功能的芯片的增长。深度神经网络需要专门的加速器,这反过来又会为计算、内存、电源和连接性带来新的架构要求。Synopsys 提供了一套全面的解决方案,能够解决 AI 设计各个方面的问题 —从加速算法创新周期(phase),到探索和验证各种不同的架构,到最终提供最佳的物理实现,并同时最大限度体现领先的代工厂节点的优势。