close
当前位置: 物联网在线 > IT技术 > 云计算 >

远场语音识别的六大难点

\


  首先列出困难,然后依次分析。

 

  语音激活检测(voiceactive detection,VAD)

 

  语音唤醒(voice trigger,VT)

 

  回声消除(Echo Cancelling)

 

  低信噪比(signal to noise ratio,SNR)和混响(Reverberation)

 

  鸡尾酒会问题(cocktail-partyproblem)

 

  关于语音识别的未来

 

  1、语音激活检测(VAD)

 

  顾名思义,指的就是判断什么时候有语音什么时候没有语音(静音)。后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的,这样可以极大的减少计算量,同时也能减少噪声误识别等情况。

 

  在近场识别的时候,这个算法可有可无:比如语音输入法中可以用手按着说话按键说话,结束之后松开。即便有,也可以做的比较简单:例如可以用能量、音高、过零率等方式进行判断。因为近场情况下信噪比(SNR)比较高,信号清晰,简单算法也可以做到有效可靠。

 

  远场识别情况下不能用手接触设备,必须使用VAD。这时噪声比较大,SNR下降剧烈,这种情况下传统的方法效果不理想。近几年深度神经网络(deepneural network,DNN)火热,基于DNN(包括DNN,CNN,RNN)的语音系统成为标配,因此VAD使用DNN来做也合情合理。但即便是这样,仍然有很大的挑战,简单的如:开关门的声音、鼓掌、跺脚、宠物叫声,困难的如:电视的声音、多人的交谈声等等。所以VAD仍然是远场语音识别的一个研究话题。

 

  2、语音唤醒(VT)

 

  可以理解为喊名字,引起听者的注意。比如苹果的“heySiri”,Google的“OK Google”,以及亚马逊echo系列产品的“Alexa”等。VT的目的是告诉机器人(或手机),接下来的话是对你讲的哦,认真听好了。VT通常是在VAD检测到人声之后进行工作,他要判断人说的话是不是激活词(激活词就是上面的“heySiri”、“OK google”以及“Alexa”等),如果是激活词,那么后续的语音就进行识别,否则后续的语音不进行处理。

 

  语音识别,不论是远场还是近场,基本都是在云端的,这样可以使用大模型,服务器的高速计算等优势获得好的识别结果。而VT基本是在本地设备上,因此它的要求更高。技术难点具体体现在以下几个方面:

 

  功耗要低。iphone4s出现Siri,但直到iphone6s之后才允许不接电源的情况下直接喊“hey Siri”进行语音唤醒,在此之前都需要接入电源的情况下进行语音唤醒。这是因为有6s上有一颗专门进行语音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。

 

  计算量要小。计算量小一方面是低功耗的要求,另一方面要是实时率的要求。即1s的语音至少要在1s之内计算完毕,这样才能保障可实用。

 

  唤醒效果。理想状况下的效果是喊它的时候它立马就能相应,不喊它的时候它乖乖的不要插话。但人生不如意十之八九,喊它的时候它不答应这叫做漏报,没喊它的时候它跳出来讲话叫做误报。漏报和误报这俩老兄是此消彼长的关系:比如唤醒词很长有10个字,那么误报肯定小,但同时漏报也就多了,喊了好几次都不理你是不是很气人?!

 

  再比如唤醒词很短只有一个字,这个时候漏报是少了,每次喊都很快回应你,但是误报也多了呀,大半夜突然跳出来说几句话那也是相当惊悚的。因此起名字也很关键,通常名字越短,越困难。比如“OK Google”和“Alexa”有四个音节,“hey Siri”有三个音节。因此,起一个朗朗上口,百喊不厌的名字也能从侧面体现出算法水平。

 

  3、回声消除(Echo Cancelling)

 

  这是全双工通信中的一个名词,即在播放的同时可以拾音。近场环境下,播放音乐或是语音播报的时候可以按键停止这些,但远场环境下想要通过语音控制,必须得实现回声消除。

 

  回声消除的难点在于它要和智能设备的音响效果之间有一个平衡和折中。如果音响设备重低音比较好,振动就会加剧,这样麦克风的拾音效果就要大打折扣。另外音响离麦克风的距离也会对拾音有影响。Amazon的echo长的很高,音响在最下面,麦克风在顶上的设计也是为了更好的实现回声消除。想google home这样设计成矮个子,对算法的要求就很高了。

 


you might also like

  • 人工智能会让很多人失业,但也会产生这5种新工作
  • 人工智能、云,两个产品读懂GE如何布局数字医疗
  • FPGA将逐渐取代GPU与CPU,成为机器人上的主要芯片
  • 人工智能走入家庭生活,本地化与服务整合成决胜关键
  • 60年人工智能简史
  • AI投资新动向:数据落地的商业公司最受追捧
  • Xilinx和IBM采用最新PCI Express标准,率先将加速云计算的互联性能提升一倍
  • 人工智能该如何走向现实应用?还得看谷歌
  • 机器人应该长得像人吗?
  • 2017大预测:大数据、物联网与人工智能

  • (责任编辑:ioter)