微软的工程师们写了一篇论文描述他们的新语音识别系统,并声称研究结果表明他们的系统在识别会话语音方面和人类一样出色。该团队报告称,基于神经网络的系统取得了历史性的成就——单词误差率为5.9%——首次低于6%,更重要的是,证明了它的性能与人类的性能相等——他们将其描述为“人类的平等性”。他们已经将论文上传到康奈尔大学的arXiv预印本服务器。
神经网络的教学使用的是美国国家标准与技术研究所(National Institute of Standards and technology)制作和发布的录音。这些录音是为研究目的而制作的,包括两个人在电话中进行的单话题和开放式话题的对话。微软的研究人员发现,他们的系统在单主题对话上的错误率为5.9%,在开放式对话上的错误率为11.1%。
此外,研究人员还报告说,他们还测试了人类的语音识别能力,方法是将NIST发送给第三方转录服务机构的同一段电话内容进行语音识别,这样就可以测量错误率。他们惊讶地发现错误率比预期的要高——单主题对话错误率为5.9,开放式对话错误率为11.3%。这些发现与科学界的普遍共识形成鲜明对比,即人类平均有4%的错误率。
该团队报告说,他们相信他们可以通过克服仍然困扰他们的系统的障碍——即反向通信——来进一步改进他们的系统。这些是人们在谈话时发出的声音,虽然不是语言,但仍然有意义,比如“呃”、“呃”和“嗯”。神经网络仍然很难弄清楚如何处理这些噪音。我们人类使用停顿来表示理解或沟通的不确定性——或者提示另一个说话者,比如表示他们应该继续他们正在谈论的话题。
研究人员还报告说,这项新技术将用于改进微软的商业语音识别系统Cortana,并将继续改进错误率,让他们的系统更好地理解转录出的单词的实际含义。
进一步探索
自20世纪90年代DARPA发布语料库以来,会话语音识别一直是语音识别的旗舰任务。在本文中,我们测量了广泛使用的NIST 2000测试集的人为错误率,发现我们最新的自动化系统已经达到了人的平等。专业转录员的错误率在数据总机部分为5.9%,在数据总机部分,新认识的两个人讨论指定的话题,而在电话家庭部分,朋友和家人进行开放式对话的错误率为11.3%。在这两种情况下,我们的自动化系统建立了一种新的最先进的技术,超越了人类的基准。这是人类第一次在对话中使用对等语。我们的系统性能的关键是系统地使用卷积和LSTM神经网络,结合一种新的空间平滑方法和无网格MMI声学训练。