将语音助手集成到便携式扬声器和智能耳机中

作者:Majeed Ahmad

投稿人:DigiKey 北美编辑

诸如 Amazon 的 Alexa、Apple 的 Siri、Microsoft 的 Cortana 和 Google Assistant 之类的虚拟助手,正在推动智能语音设备创新——从与智能手机和其他移动设备配对的蓝牙耳机,到家庭和办公室自动化环境中的智能扬声器,还有电视等消费类电子产品。虽然语音服务越来越多地用于控制听音乐、打电话、运行生物识别传感器之类的功能,但是设计人员发现,在声音和电噪声均很大的环境中,想要识别、采集和无线传输语音是一个挑战。

若要应对挑战,需要强大的噪声消除技术和同样强大的无线接口,所有这些都应打包成一个解决方案,以便开发人员进行试验并迅速应用,节省时间和成本。

本文介绍 Cirrus LogicXMOSQualcomm 的几种语音采集解决方案,这些方案可帮助设计人员快速开始新一代支持语音的移动设备和耳机设计。

语音采集解决方案

当 Apple 和 Microsoft 等公司开始对智能手机和计算机实施相应的解决方案时,Amazon 则推出配备 Echo 智能扬声器的 Alexa,然后开始将其扩展到更多设备中。

但是,Echo 内置有 7 个麦克风,这对于空间、成本、功耗都非常宝贵的小型手持设备而言,可谓是太多了。虽然如此,Cirrus Logic 等芯片制造商加入进来,推出更简单的设计解决方案,让设计人员能将 Alexa 集成到各种智能设备和其他尺寸的音频系统中。

例如,采用 Alexa 语音服务 (AVS) 的智能家居应用(支持通过语音控制照明和电器)、免提便携式扬声器和联网扬声器。这些应用需要语音采集解决方案来抑制噪声和其他现实存在的干扰,增强用户体验,提供更准确、更可靠的语音交互。

在嘈杂的环境中和音乐播放期间,必须具备高精度的唤醒词触发和命令解读,才能实现语音助手功能。回音消除对于实现出色的用户体验也非常重要。通过消除回音,用户将能中断响亮的音乐播放和 Alexa 响应,从而使得新请求可以得到准确响应。

要尝试 AVS 设计,不妨使用 Cirrus Logic 针对 AVS 的语音采集开发套件 598-2471-KIT,这是一个不错的开端。该套件旨在将 Alexa 功能集成到含有声音调谐音频处理软硬件组件的紧凑型音频设备中(图 1)。它基于 Raspberry Pi 3 平台,包括一个参考板,其中有 Cirrus Logic 的 CS47L24-CWZR 智能编解码器、数字 MEMS 麦克风和 SoundClear® 算法,支持语音控制、噪声抑制和回音消除。

Cirrus Logic 的 598-2471-KIT 语音采集开发套件图片图 1:Cirrus Logic 针对 AVS 设备的 598-2471-KIT 语音采集开发套件支持将语音采集板(右上方)连接到 Raspberry Pi 3(左上方),方法是通过电缆或作为 HAT 放置在 Raspberry Pi 3 之上。(图片来源:Cirrus Logic)

语音采集构件

语音采集过程始于 CS47L24 语音处理器,其集双核 300 MMAC DSP 与音频中枢编解码器于一体,能够服务于各种高能效的固定功能音频处理模块(图 2)。可编程 DSP 核心支持一系列高级音频处理特性,例如多麦克风噪声抑制、声学回波消除 (AEC) 和语音识别。

Cirrus Logic 的 CS47L24 语音处理器示意图图 2:套件上的语音采集始于 CS47L24 语音处理器,其集双核 300 MMAC DSP 与音频中枢编解码器于一体,能够服务于各种高能效的固定功能音频处理模块。(图片来源:Cirrus Logic)

CS47L24 智能编解码器利用片上数模转换器 (DAC) 和 2 W 单声道扬声器驱动器,来实现高保真音频播放。它支持自动采样率检测,有5助于宽带和窄带语音呼叫切换。CS47L24 处理器提供了三个数字音频接口,每个接口支持一系列标准音频采样率和串行接口格式。

CS47L24 由 1.8 V 和 1.2 V 外部电源供电,其电源、时钟和输出驱动器架构均针对低功耗而设计,支持语音、音乐和待机模式。CS47L24 还提供单独的 MICVDD 输入,以支持 1.8 V 以上的麦克风操作。

数字 MEMS 麦克风 IC 和相关 SoundClear 算法支持语音控制、噪声抑制和回音消除,可在输入端提供高质量音频,同时能降低麦克风功耗。该 IC 支持两种工作模式:低功耗模式和高性能模式,前者适合始终在线语音活动检测,后者针对高保真录音进行优化。模式是由所施加的时钟频率来确定。

麦克风集成了模数转换器 (ADC),可利用脉冲密度调制 (PDM) 编码输出单比特数据流,以及在立体声和阵列配置有效连接多个麦克风。对设计人员来说,多麦克风 IC 很重要,因为可对其进行优化,利用波束形成技术实现主动降噪和回音消除,实现超清晰全双工通信和音频采集。

MEMS 麦克风还应在本底噪声和声学过载点之间提供较宽的动态范围(100 dB 是一个很好的起点),以便在安静和嘈杂的环境中均能进行高保真音频录制。例如,它能录制古典音乐或语音之类的低音量音频内容,而不会有背景嘶嘶声。同时,它能确保摇滚音乐会和风声之类的响亮声音不会引起麦克风失真。

为了充分利用硬件,SoundClear 算法通过噪声抑制、自动语音识别 (ASR) Enhance™、回音消除等处理功能来消除噪声。

远场语音采集

另一种语音采集解决方案是 XMOS 的 XK-VF3500-L33-AVS VocalFusion™ 立体声开发套件,适用于 Amazon 的 AVS。此套件聚焦于远场使用场景,例如智能电视、条形音箱、机顶盒、数字媒体适配器等。这些应用需要立体声 AEC 以支持“全房间”语音接口解决方案,让用户可以通过语音命令打开电视和调节台灯。

远场语音采集应用要求准确校准 AEC 基准信号,并仔细调整延迟时间。这样做后,设计人员便可确信,无论内容量和周围环境如何,其设计的远场语音配件都能听到并准确捕获用户的语音命令。

VocalFusion 套件是一种线性麦克风阵列解决方案,已通过 Amazon 远场性能认证。它让设计人员可以将 Alexa 放入智能电视、照明和家用电器等房间边缘的设备中。该套件基于 XVF3500-FB167-C 语音处理器构建,提供双通道全双工 AEC 来支持复杂声学环境中的语音采集(图 3)。支持 DSP 的 AEC 功能有利于去混响、自动增益控制和噪声抑制,确保即使在嘈杂的环境中也能实现清晰的语音交互。

XMOS 的 XVF3500 语音处理器示意图图 3:XVF3500 语音处理器采用自适应波束形成来定位目标语音源,并将语音命令与立体声音频有效隔离,同时抑制背景噪声和室内回音。(图片来源:XMOS)

接下来,四麦克风 VocalFusion 套件使用 Infineon 的 XENSIV™ IM69D130V01XTSA1 MEMS 麦克风,这些麦克风提供原始音频数据,以便在 XVF3500 语音处理器上运行音频信号处理算法。IM69D130 麦克风提供远场和耳语拾音性能,在最高 128 dB 的声压级 (SPL) 下总谐波失真 (THD) 不到 1%。

语音采集设计提供的“打断”功能允许用户中断或暂停正在播放音乐的设备,这就为立体声家庭娱乐和壁挂式影音设备中基于 Alexa 的设计提供了新的机遇(图 4)。

语音采集处理器和麦克风的示意图(点击放大)图 4:语音采集处理器和麦克风相互配合,为远场 Alexa 应用提供语音接口。(图片来源:Infineon Technologies)

一个实际实施的示例就是创维的基于 XVF3500 语音处理器的人工智能 (AI) 电视。这种始终开启的智能电视能够唤醒并响应语音命令,具备 180° 全方位声源识别功能,有效范围为 5 米 (m)。

智能耳机设计

设计工作的另一端是耳塞和耳机。与智能手机和平板电脑配合使用时,这些设备日益需要集成语音助手来支持日历管理、智能家居控制、音乐流播放和天气更新。同智能扬声器一样,蓝牙耳机也需要不断改进,以在嘈杂的环境中传输高质量音频。

Qualcomm 提供适用于 AVS 和 Google Assistant 平台的智能耳机参考设计与开发套件,这些主要构件能够支持开发人员着手设计声控耳机和耳穿戴设备。参考板可帮助开发人员评估语音助手,而设计套件则允许设计工程师转移到完整开发环境。

以 Qualcomm 针对 Google Assistant 的 DK-QCC5124-GAHS-A-0 智能耳机开发套件为例。此产品支持安装了 Google Assistant 应用的 Android 手机通过按钮激活 Google 语音助手。它基于 Qualcomm 蓝牙音频芯片组构建,其中采用 Qualcomm 清晰语音采集 (cVc™) 降噪技术,通过噪声抑制和其他音频增强功能来降低环境声音,从而改善呼叫者的声音。

cVc 6.0 技术通过一套降噪算法来掩蔽丢包和误码,从而提供清晰的通话效果。Qualcomm 的 aptX™ HD 是另一项引人注目的技术,有助于降低延迟以实现稳健的音频流。这是一种高清蓝牙音频编解码器,旨在提高信噪比并降低背景噪声。

Qualcomm 针对 Amazon AVS 的 DK-QCC5124-AVSHS-A-0 智能耳机参考设计同样支持 cVc 6.0 降噪和 aptX HD 无线音频技术。它支持安装了 Alexa 应用的手机通过按钮激活 Alexa。

该平台基于 Qualcomm 的 QCC5124 蓝牙收发器芯片组构建,而且支持 Alexa Mobile Accessory (AMA) 套件,后者允许用户方便地将蓝牙与 Android 和 iOS 设备上的 Alexa Mobile 应用连接起来(图 5)。AMA 套件有助于将耳机中的语音命令通过手机传达给 Alexa,而 Amazon AVS 承担自然语言处理的繁重任务。

Qualcomm 针对 Amazon AVS 的 DK-QCC5124-AVSHS-A-0 开发板示意图图 5:针对 Amazon AVS 的 DK-QCC5124-AVSHS-A-0 开发板具有智能耳机设计的关键构件。(图片来源:Qualcomm)

这意味着两件事:第一,开发人员无需为 Alexa 集成而检查大量代码;第二,开发人员无需在蓝牙连接之外添加任何通信硬件。

在更高层次上,AMA 套件使得 Amazon AVS 能够帮助语音配件(如智能耳机)与 Alexa 服务进行通信,通信使用的控制机制在语音配件与 Alexa Mobile 应用之间运行。

评估后,开发人员可以使用开源板开发套件。但是,对开源板开发套件进行编程需要使用 Transaction Bridge (DK-TRBI200-CE684-1),套件中未包含此工具,不过可以另行购买。

总结

对于希望将语音助手集成到下一个设计中的设计人员而言,硅供应商在唤醒词识别、噪声消除、低功耗始终开启功能方面已经完成了大量繁重工作。设计人员可以使用参考设计和开发套件来开发语音采集解决方案,以支持从智能耳机和智能扬声器到全屋语音控制等一系列智能语音控制服务。

 
DigiKey logo

免责声明:各个作者和/或论坛参与者在本网站发表的观点、看法和意见不代表 DigiKey 的观点、看法和意见,也不代表 DigiKey 官方政策。

关于此作者

Image of Majeed Ahmad

Majeed Ahmad

Majeed Ahmad 是一名电子工程师,在 B2B 技术媒体方面拥有 20 多年的经验。他是《EE Times》姊妹刊物《EE Times Asia》的前主编。

Majeed 撰写了六本关于电子学书籍。他还经常为电子设计出版物撰稿,包括《All About Circuits》、《Electronic Products》和《Embedded Computing Design》。

关于此出版商

DigiKey 北美编辑