当前位置 > 凤凰娱乐 > 企业文化 > Apple如何让Homei在HomePod上变得更聪明

Apple如何让Homei在HomePod上变得更聪明

时间:2019-01-08 11:44:53 来源: 凤凰娱乐 作者:匿名


智能扬声器通常会有一些有趣的事件,例如回答问题,容易被错误唤醒,以及订购电子商务订单。它们背后的问题与语音识别和噪声信息的干扰有关。 Apple Audio Software Engineering和Siri Speech团队在Apple工作。人工智能博客“机器学习期刊”的文章揭示了他们如何在远场设置中优化HomePod上的Siri。

在智能手机上使用语音助手时,用户的嘴通常非常接近收音机的麦克风,但使用智能扬声器的情况不同,用户经常控制扬声器在一定距离,这种“远场互动” “或嘈杂环境带来许多挑战,包括回声,混响和噪音,这将降低目标扬声器音频的质量和可理解性,这是智能扬声器设计中必须克服的难题。

Homei上的Siri如何正确识别命令?简而言之,Apple为HomePod构建了一个多通道信号处理系统,使用六个麦克风并在Apple A8芯片上连续执行多通道信号处理。同时,当环境噪声条件和扬声器发生变化时,多通道滤波也将继续调节运行。

Apple指出,HomePod的多通道信号处理系统主要有两项主要技术,一种是基于掩模的多通道滤波,它使用深度学习来消除回声和背景噪声,第二种是基于无。无监督学习的“在线学习”算法可以处理多麦克风信号并分离同时来源。因此,当用户说出“Hey Siri”唤醒字时,集成上述两种方法的系统将为语音识别器选择最佳音频流并消除干扰语音。

图| Siri在HomePod上的在线多通道信号处理架构(来源:Apple)

从传统算法到机器学习的信号处理

耳朵可以让人类清晰地听到,识别声音的方向,或者确定它所处的环境。为了使机器具有完整的人耳功能,现有的技术仍然很难实现,主要是因为声音是叠加信号,并且场景具有各种声音,噪声等,并且信号能量是混合的。在那之后,很难将它们分开。传统声音信号处理的想法是基于噪声特性,例如噪声模式是如何,频率中有什么特性等。然后设计滤波器以将噪声留在滤波器屏幕上,留下剩余的声音。但是,这种方法存在问题。世界上有太多类型的噪音。聚合物有各种组合和组合,许多动态噪声无法提前预测。

在过去,主流实践是使用多个麦克风来收集声音并增强语音。重点还在于消除混响和噪音抑制。然而,近年来,前端信号处理也开始引入深度学习,在特征提取之前处理原始语音,例如噪声抑制,回声消除,混响抑制。

图| Apple Smart Speaker HomePod(资料来源:Apple)

盲源分离的无监督学习

在Apple发表的文章中,提出了多通道回声消除(MCEC)算法,基于掩模的回声抑制和抑制。但是,值得注意的是Apple提出了盲源分离(BSS,Blind)。源分离):BSS可以通过无监督学习将多个音频源分离为单个音频流,但如何从多个输出流中选择正确的音频流仍然是一个挑战。

因此,Apple认为有必要建立自上而下的知识来理解用户的语音命令。除了使用唤醒词“Hey Siri”识别目标物体的音频外,他们还开发了“分离”。 “竞争说话者分离”方法,并通过深度学习选择发出命令的发言者,应该关注发言者。这将改善Siri在智能扬声器方面的经验。

盲源分离可以说是声学和语音识别领域中备受关注的话题。许多研究人员或公司想要突破这个问题。 BSS是指一种不需要先验信息的传感器。在混合中,提取和分离源的方式更简单。如果信号和混合过程未知,BSS的目标是分离各种来源。在Competing Talker Separation部分,Apple使用轻量级,无监督的学习方法,将麦克风阵列信号分解为单独的音频流,以实现盲源分离。此外,Apple还开发了一种基于深度学习的音频流选择系统。当系统检测到“Hey Siri”时,它将对每个音频流进行评分,并选择分数最高的音频流,将其发送给Siri语音。确定并完成任务。

语音被认为是一种新的互动模式,将在日常生活中被广泛应用,但仍有许多挑战有待解决。近年来,图像或视频的AI发展迅速,但与机器视觉相比。而活动,机器听觉领域仍处于起步阶段,人工智能辅助语音处理优化了智能语音助手在远场的互动体验,也有机会为机器听力带来更多突破。