TI 处理器与深度学习加速器
TI的AM6xA(如AM68Ax和AM69Ax)边缘AI处理器采用异构架构,带有用于深度学习计算的专用加速器。这个加速器被称为MMA -矩阵乘法加速器。该MMA与TI自己的C7x数字信号处理器一起,可以进行高效的张量,矢量和标量处理。加速器是独立的深度学习处理,不依赖于主机ARM CPU。由于模型计算有大量的数据传输,加速器有自己的DMA引擎和内存子系统,与SoC的其余部分连接到相同的DDR。这与专有的Super-tiling技术一起,导致高达90%的加速器引擎利用率和DDR带宽驱动尽可能低的功耗,以实现节能计算。
MMA架构(来源:TI)
使用MMA作为AI功能的加速,整体SoC框图如下图所示。产品组合中的每个边缘AI设备(如AM62A、AM68A等)的架构都是相似的。
AM6xA处理器框图(来源:TI)
基于异构架构,片上系统(SoC)经过优化,可在多核Cortex-A微处理单元(mpu)上轻松编程,同时集成深度学习、成像、视觉、视频和图形处理等计算密集型任务。任务被卸载到专用硬件加速器和可编程核心上。使用高带宽互连和智能存储器架构对这些核心进行整体系统级集成,可实现高吞吐量和能源效率。通过系统组件的预集成实现优化的系统BOM。请注意,像AM62A这样的成本和功耗优化的SoC并不包括所有硬件功能,例如GPU和DMPAC,或者可能包括性能降低的加速器变体以降低功耗。
深度学习效率
通常,TOPS(每秒tera次操作)用于衡量深度学习的性能比较。TOPS不能完全涵盖深度学习性能的所有方面,因为它还依赖于内存(DDR)容量和神经网络架构。
实际的推理时间取决于系统架构利用系统中最优数据流的效率。因此,更好的性能基准是给定模型在给定输入图像分辨率下的推理时间。更快的推理时间允许处理更多的图像,从而产生更高的每秒帧数(FPS)。因此,FPS除以TOPS (FPS/TOPS)显示了建筑的效率。同样,FPS/瓦特是嵌入式处理器能源效率的一个很好的基准。