单片机为何以及如何能助力实现边缘 AI 的普及化

作者:Poornima Apte

投稿人:DigiKey 北美编辑

在过去的几年里,边缘 AI 越来越受欢迎。预计到 2035 年前,相关全球市场将以 27.8% 的复合年增长率增长,净值增至 3568.4 亿美元。

这种需求是多种因素推动的结果。公司普遍对将敏感或专有信息传送到云端存在安全顾虑,而在边缘处理数则可消除这种顾虑。边缘处理还能减少延迟,这在需要瞬间做出决策的实时应用中可能非常重要。工业物联网 (IIoT) 设备提供数据驱动的操作,这反过来又增加了边缘 AI 的用例。从便携式医疗设备到可穿戴设备和 IIoT,快速扩展的应用正在推动边缘 AI 市场的蓬勃发展。

随着这项技术日渐普及,对于能够满足嵌入式系统数据处理需求的组件,市场需求也在同步攀升。

计算处理的选择:单片机还是微处理器

目前,在工业和其他嵌入式设备中部署的绝大多数物联网设备都是内存非常小的低功耗设备。设备的处理能力来自小型嵌入式单片机 (MCU)。这些 MCU 采用低功耗架构,相较于采用微处理器的系统,能让嵌入式系统在成本效益方面更具优势。

在边缘 AI 出现之前,MCU 一直能很好地满足物联网设备的处理需求。但传统的 MCU 通常无法提供更复杂的机器学习算法所需的计算能力,而这些算法是边缘 AI 应用的标志。此类算法通常在具有更多计算能力的图形处理单元 (GPU) 和微处理器上运行。然而,使用这些元器件也存在一些固有弊端,其中就包括耗电量较大这一问题。微处理器或 GPU 并不是能效最高的解决方案。因此,微处理器驱动的边缘计算可能并不是所有边缘 AI 应用的最佳选择,而供应商选择依赖 MCU。

独立 MCU 比 GPU 和微处理器更便宜。为了扩展边缘 AI 应用,越来越需要在发挥 MCU 低成本、低功耗优势的同时,提升其计算性能。

事实上,多年来,一些因素已经融合在一起,推动着边缘 MCU 的功能持续提升。

有助于在边缘使用 MCU 的因素

尽管人们普遍认为传统 MCU 对于 AI 相关的数据处理来说过于轻量级,但 MCU 设计的优化,加上更为广泛的技术生态系统的变革,正在推动着 MCU 在边缘 AI 用例中的应用。

这些因素包括:

  • 在 MCU 中集成 AI 加速器:当单靠 MCU 无法满足边缘计算需求时,将其与神经处理单元 (NPU) 或数字信号处理器 (DSP) 等 AI/ML 加速器集成可以提高性能。

    例如,STMicroelectronicsSTM32N6 系列 CPU(图 1)基于运行频率为 800 MHz 的 Arm Cortex-M55。Arm Helium 矢量处理技术为标准 CPU 带来了 DSP 处理功能。STM32N6 是第一款嵌入 ST Neural-ART 加速器的 STM32 MCU,该加速器是一款内部开发的 NPU,专为强大的边缘 AI 应用而设计。

适用于高能效边缘 AI 应用的 STMicroelectronics STM32N6 MCU 的图片图 1:STM32N6 是第一款嵌入 ST Neural-ART 加速器的 STM32 MCU,该加速器是一款内部开发的神经处理单元 (NPU),专为高能效边缘 AI 应用而设计。(图片来源:STMicroelectronics)

  • 针对边缘优化的 AI 模型:复杂繁重的 AI 和机器学习算法不能简单地转移到 MCU。它们需要针对有限的计算资源进行优化。TinyML 和 MobileNet 等紧凑型 AI 架构与优化技术相结合,实现了这一点,甚至使边缘的 MCU 能够执行 AI 算法。STMicroelectronics 推出了 STM32Cube.AI,这是一款软件解决方案,能够把神经网络转化为针对 STM32 MCU 进行优化的 C 代码。即便存在处理能力与内存方面的限制,将该解决方案与 STM32N6 搭配使用,也有助于确保达成边缘 AI 应用所需的性能。
  • AI 生态系统的兴起:仅仅拥有能够在边缘进行 AI 相关处理的硬件组件远远不够。在边缘执行 AI 算法需要对开发人员友好的生态系统,以帮助简化 AI 的部署。TensorFlow Lite for Microcontrollers 等特定工具有助于提供此类解决方案。Hugging Face 等开源社区和其他平台提供了预先训练的模型和代码库,开发人员可以根据特定用例对其进行测试和定制。这样的 AI 生态系统极大地降低了技术应用的门槛,推动了 AI 技术的普及化进程,即便对于那些资源有限、无法独立从零开始开发专有 AI 模型的企业而言,也能够顺利接入并利用 AI 技术。

    STMicroelectronics 有专门定制的硬件和软件生态系统 ST Edge AI Suite,用于优化边缘 AI 解决方案。该套件整合了 ST 的许多 AI 库和工具,使开发人员更容易找到可以为单片机生成代码的模型、数据源、工具和编译器。

    模型库中的预训练模型为开发人员提供了起点。这些模型使用开放神经网络交换 (ONNX) 格式,这是一种开放标准,用于表示计算机视觉 (CV)、自然语言处理 (NLP)、生成式人工智能 (GenAI) 和图形机器学习等领域的机器学习模型。

  • 标准化和互操作性代码:AI 生态系统帮助企业测试了边缘 AI 用例,而开放和标准化的模型格式则助力实现了跨硬件系统的无缝集成。跨软件工具和 MCU 的兼容性有助于减少边缘 AI 的实施障碍。
  • 关注边缘安全:虽然 MCU 消除或至少减少了对数据云处理的需求,但硬件组件提供了额外的安全层。它们通常包括硬件加密和安全启动等功能,能够有效保护数据和 AI 模型,使其免受恶意攻击者的破坏。

STM32N6 硬件的特色功能

STM32N6 系列包括带有 NPU 的高性能 MCU、摄像头模块捆绑包和谈探索套件。该系列采用典型的 ARM Cortex-M 架构,并具有多项关键特性,使这些设备适用于边缘 AI。其中包括:

  • Neural ART 加速器,可以运行神经网络模型。该加速器针对密集型 AI 算法进行了优化,时钟频率为 1 GHz,以平均 3 TOPS/W 的能效提供 600 GOPS。
  • 支持“Helium”M 型矢量扩展 (MPVE) 指令,这是一组可实现强大的神经网络和 DSP 功能的 ARM 指令。例如,这些指令被设计用于处理 16 位和 32 位浮点数,这使它们能够有效地处理低精度数字。而这些对于处理 ML 模型非常重要。
  • ST Edge AI Suite 是一个免费软件工具、用例和文档的存储库,可帮助各种经验水平的开发人员为智能边缘创建 AI。该套件还包括 ST Edge AI Developer Cloud 等工具,其中包含 STM32 模型库中的专用神经网络、用于真实世界基准测试的板卡集群 (Board Farm) 等。
  • 近 300 个可配置的乘法累加单元和两条 64 位 AXI 内存总线,吞吐量高达 600 GOPS。
  • 内置专用图像信号处理器 (ISP),可直接连接多台 500 万像素摄像头。要构建包含摄像头的系统,开发人员必须针对特定的 CMOS 摄像头传感器及其镜头微调 ISP。这种微调通常需要专业知识或第三方的帮助。为此,ST 为开发人员提供了一款名为 iQTune 的专用桌面软件。该软件运行在 Linux 工作站上,与 STM32 上的嵌入式代码通信,分析色彩精度、图像质量和统计数据,并适当配置 ISP 的寄存器。
  • 支持 MIPI CSI-2(移动应用中最流行的摄像头接口),无需与此特定摄像头串行接口兼容的外部 ISP。
  • 单个器件集成了丰富的附加功能,这意味着开发人员现在无需部署多个 MCU,便能实现神经网络与 GUI 的同步运行。
  • 强大的安全性,包括 Target SESIP 3 级和 PSA 3 级认证。

总结

过去,若要在边缘运行机器学习应用,嵌入式系统必须借助高性能的微处理器,才能承担起执行复杂算法的繁重任务。得益于 STMicroelectronics 推出的 STM33N6 系列 CPU 这类功能强劲的 MCU,如今企业能够在边缘实现 AI 的普及化。STMicroelectronics 为边缘 AI 部署提供了完整的生态系统,包括用于推理的软件和硬件组件。

DigiKey logo

免责声明:各个作者和/或论坛参与者在本网站发表的观点、看法和意见不代表 DigiKey 的观点、看法和意见,也不代表 DigiKey 官方政策。

关于此作者

Image of Poornima Apte

Poornima Apte

Poornima Apte 是一名训练有素的工程师,后转为技术作家。其专业领域涉及工程、人工智能、物联网、自动化、机器人、5G 和网络安全等多个技术主题。Poornima 对印度经济繁荣后移居印度的美籍印度人进行了原创性报道,为她赢得了南亚记者协会颁发的奖项。

关于此出版商

DigiKey 北美编辑

mmmmmmmmmmllimmmmmmmmmmlli