为了提高语音识别率 搜狗研发了“唇语识别”界面

01-18

      在今年12月的第四届世界互联网大会上,搜狗首次对外演示了他们的“唇语识别”技术,搜狗希望,能在语音识别的基础上做多模态输入,以提升准确率。

      公开资料显示,唇语识别是一项集机器视觉与自然语言处理于一体的技术,系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征;随即将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音;随后根据识别出的发音,计算出可能性最大的自然语言语句。 

      搜狗的唇语识别技术诞生于其语音交互中心,该中心主要的研究方向在语音听写、语音交互、语音翻译。在最初,搜狗的语音交互团队原本想要找办法解决语音识别里的噪音问题,进而衍生出了做唇语识别的念头。 “唇语这件事情放到我们团队来说就是做多模态的输入。”搜狗语音交互中心语音技术部负责人陈伟介绍,“这包括了视觉和音频的结合,唇语是一个很好的补充。” 

      陈伟说的补充效果主要体现在两种场景下: 第一种场景是噪声环境。如果在相对安静的场景下,语音识别准确率能达到97%,但实际的车载、房间等场景下,语音识别的准确率会急遽下降。 此前,搜狗的语音交互团队也计划靠提升硬件来解决该问题,例如在做麦克风阵列的时候,增强语音信号,降低噪声。后来,他们又想到加一些多模态信息进来,也就有了现在的“唇语识别”。 陈伟提到一个心理学的实验麦格克效应,“当一个人和另外一个人交流的时候,看着他的嘴唇,同时听声音的时候这个准确率是最高的。” 第二种场景是摄像头下的语言获取。现阶段,大部分的场景下只有摄像头没有麦克风,摄像头获取的只是图像数据,很难知道现场这个人讲什么。 这也是目前搜狗语音交互团队想到,“唇语识别”可能会落地的两个场景。 

      实际上,对于唇语识别这项技术,早在2003年,英特尔公司曾推出过一款视听说识别系统的软件,电脑开发者可以在此基础上研制读懂“唇语”的计算机。除此之前,涉及唇语识别技术研发的企业还有谷歌、微软,海云数据等。 陈伟认为,这项技术真正有了突破是在谷歌。据New Scientist报道,牛津大学工程科学系与谷歌的DeepMind,从英国广播公司电视台截取了100,000个小视频,成功地开发出一个识别率达到46.8%的人工智能系统,远远超过了人工识别的12.4%准确率。 

      但陈伟没想明白为什么谷歌的唇语技术仅仅是秀了一些案例,而没有公开演示。但在他自己和团队的研究过程中发现唇语技术存在的几个难点。 

     其一,准确率很难达标,对于开放的集合准确率能达到50%已经算很好了,但实际是仍然错误百出; 

     其二,泛化能力,谷歌的唇语技术基于2010年到2016年的新闻访谈训练集的数据,训练集和测验集是同源的数据,准确率能得到保证的前提是在闭环上测试; 

     其三,响应速度,要有一个很低的延时,才能保证快速出结果,这就需要把模型做得很复杂,也多了很多折中的选择。 

      在上述三个难点中,陈伟认为最大的难点还是在于泛化性,“我们之前的数据都是来自新闻类节目,主持人的唇型发音都是经过了标准训练,但普通人发音是不标准的。后来,我们针对这个问题去录制了很多普通人的数据,把这些数据加进来之后,在普通人的泛化性上才得到很大的提升。”

     据陈伟介绍,搜狗在乌镇上发布的唇语系统用了数千个小时的真实唇语数据,端到端的中文的唇语序列建模,同时基于搜狗已有的单元处理的技术,才保证了整个“唇语识别”的效果。 “就是在一个开放的口语测试级上,基本上可以保证50%-60%的准确率,在垂直场景下,准确率更高。”陈伟称。 

      陈伟认为,尽管目前唇语识别技术还不完善,但有非常多的场景可以落地。“唇语可以放在安防上,助残上,甚至一些电影上,未来的车载、家居、机器人怎么跟它结合也都是我们想做的。” 陈伟还透露,“可能是明年,我们计划就会有一些落地的项目。”​​​​