• QQ空间
  • 收藏

云从科技刷新一项语音识别纪录

| 2020-11-09

近日,云从科技宣布在全球最大的开源语音识别数据集 Librispeech 上,将错词率(Worderrorrate,WER)降到了 2.97%,并将 Librispeech 的 WER 指标提升了 25%,超过阿里、百度、约翰霍普金斯大学等企业及高校,刷新了原先记录。

将 Librispeech 数据集上的错词率降至 2.97%

Librispeech 是当前衡量语音识别技术的最权威主流的开源数据集,错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。

云从科技在 Librispeech 数据集上将错词率(Worderrorrate,WER)降到了 2.97%,较之前提升了 25%。这项成果有利于语音识别技术的进步,也有助于推动语音识别带来良好的智慧交互体验。

云从科技此次推出的语音识别模型 Pyramidal-FSMN 融合图像识别与语音识别的优势,将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。

语音识别技术近年进展

2017 年 3 月,IBM 结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。「集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破」。相对应的是去年 5 月的 6.9%。

2017 年 8 月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约 12% 的出错率,错词率为 5.1%,声称超过专业速记员。相对应的是去年 10 月的 5.9%,声称超过人类。

2017 年 12 月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),错词率降低至 5.6%。相对于强大的传统系统有 16% 的性能提升。

2018 年 6 月,阿里巴巴达摩院推出了新一代语音识别模型 DFSMN,将全球语音识别准确率纪录提高至 96.04%,错词率降低至 3.96%。

2018 年 10 月,云从科技发布全新 Pyramidal-FSMN 语音识别模型,将错词率(Worderrorrate,WER)降低至 2.97%,较之前提升了 25%。

Pyramidal-FSMN 语音识别模型原理解析

云从科技提出的新型网络结构,能更加有效的提取空间和时间特征的角度,为语音识别进一步发展提供了一些新的思路: 模型设计采用一种残差卷积网络和金字塔记忆模块的序列记忆网络相结合的结构; 训练方式使用 lattice-free 最大互信息(lattice-free maximum mutual information,LF-MMI/Chain)与交叉熵(cross entropy,CE)损失函数相结合的多任务学习技术;解码部分采取 RNNLM rescoring 的方式,利用 RNN 提取一个句子中的长期语义信息,从而更有效地帮助声学模型得到准确的句子。

如下图所示,作者采用了由 6 层 Residual CNN 和 10 层 Pyramidal-FSMN 相结合的网络结构。前端网络借鉴了图像识别中经典的 Residual CNN 结构,更有效地提取特征与时间相互的关联信息,同时 skip connection 避免了 CNN 网络加深之后梯度消失和梯度爆炸问题。在金字塔记忆模块中,浅层的网络主要聚焦于音素本身的特征学习,所以只需抽取短时上下文信息,而深层的网络由于已经学习到了足够的固定时间的音素信息,需要学习长时间包括语义和语法特征,所以深层抽取长时间的上下文信息。利用这样的金字塔结构,既能减少参数,缩小模型结构,也能更加精巧的模拟人类处理语音信号的过程,提高识别效果。

在损失函数部分,作者采用了基于 LF-MMI 的序列性训练方式。同时为了解决序列性训练容易导致过拟合的问题,又引入了传统的交叉熵损失函数,在 LF-MMI 输出之外加入另一个输出层作为一个正则技术,通过设置交叉熵的正则化系数,两个目标能够有效地学习并且避免过拟合问题。

最后,作者使用了 RNNLM rescoring 技术对解码做进一步处理。在没有 RNNLM rescoring 的情况下,Pyramidal-FSMN 已经达到了目前最好的结果,rescoring 之后又有了更进一步的提升。

声学模型和 RNNLM 的训练数据完全基于 Librispeech 和通用的语言模型数据集,并没有额外引入其他的训练数据这样的「技巧」性策略。

论文地址:https://arxiv.org/abs/1810.11352

相关介绍:

LibriSpeech 数据集:世界最大的免费语音识别数据库,包含文本和语音的有声读物数据集,由 1000 小时的多人朗读的清晰音频组成,且包含书籍的章节结构。

2020-11-23
科技 宜宾市高县科技局关于遴选科技情报研究所工作人员的公告
    根据工作需要,按照“公开、平等、竞争、择优”的原则,决定面向全县事业单位公开遴选高县科技情报研究所工作人员。... <详情>
2020-11-23
科技 猛狮科技上半年预亏2.7-2.93亿元 新能源汽车电池与租赁业务不及预期
电动汽车资源网了解到,猛狮科技此前预计2018年1-6月归属于上市公司股东的净利润与上年同期相比变动幅度为48.24%至98.01%,变动区间为7000万元至9... <详情>
2020-11-23
科技 国科发高字[2006]498号 科技企业孵化器(高新技术创业服务中心)认定和管理办法
科学技术部关于印发 《科技企业孵化器(高新技术创业服务中心)认定和管理办法》的通知 [全文废止]     ... <详情>
2020-11-23
科技 2019年上半年全球金融科技监管动态及趋势
金融科技作为科技驱动的金融创新,已是一项全球性议题,并日益成为全球各国各地区金融竞争和金融资源布局的焦点领域。面对错综复杂的国际经济金融形势以及快速变化的金融科... <详情>
2020-11-23
科技 科技助力纪检监督 询价采购“e路”阳光
全流程电子化让询价评审人员操作更加便捷。(张莉 摄) 宜宾新闻网5月28日讯(张莉 记者 张耀兮)5月27日,四川省向家坝灌区工程常年法律顾问询价采购评审会举行... <详情>
2020-11-23
科技 美国科技巨头“眉来眼去”撩TikTok,密谋团购瓜分
看点:美国科技巨头密谋“团购TikTok”!字节跳动还坐得住吗? 智东西8月22日消息,据彭博社报道,谷歌母公司Alphabet近日曾考虑参与对TikTok的... <详情>