谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC
发布网友
发布时间:2024-09-17 02:09
我来回答
共1个回答
热心网友
时间:2024-11-24 07:44
谷歌发布了一款端到端的移动端全神经语音识别器,旨在处理Gboard中的语音输入。这款新型语音识别器能够内置在手机设备中,即便在离线状态下也能使用。其特别之处在于能够实现字符级实时输出,为用户提供快速响应,显著提升了用户体验。在相关论文《Streaming End-to-End Speech Recognition for Mobile Devices》中,谷歌研究者展示了使用RNN transcer(RNN-T)技术训练的模型,该模型十分紧凑,足以在手机设备中运行,确保了无需网络延迟或不稳定性,用户可以随时随地使用语音识别功能。模型以字符级运行,用户说话时,它会立即输出单词,就像有人在实时打字一样。
这一新型全神经移动端Gboard语音识别器的发布,标志着在语音识别技术领域的一次重大突破。它不仅在准确性上超越了经典的CTC模型,同时在实时性方面也表现卓越,为用户提供了更加便捷和高效的服务。在文章中提到的视频对比实验中,新模型与服务器端语音识别器进行了直接比较,显示了其在识别相同语音句子时的出色表现。
回顾语音识别的历史,早期的语音识别系统包含多个独立优化的组件,如声学模型、发音模型和语言模型。然而,随着深度学习技术的发展,研究人员开始注重训练单一神经网络,将输入的音频波形直接映射到输出语句上。这种序列到序列的方法,如“基于注意力”和“监听-注意-拼写”模型,显著提高了语音识别的准确性。不过,这些模型在实时性方面仍有待提高,无法在输入的同时实现输出,这正是新模型所解决的问题。
RNN transcer(RNN-T)模型是一种不依赖注意力机制的序列到序列模型,适用于语音听写。它通过连续处理输入样本并生成输出信号,实现了一种高效和实时的语音识别方式。在谷歌的实现中,输出信号是字母表中的字符。随着用户说话,RNN-T 识别器逐个输出字符,并在合适的地方添加空格。同时,模型具备反馈循环,将预测信号输入到模型中,以预测下一个信号。
在新型训练技术的支持下,RNN-T模型的训练变得更加高效,使得模型能够以极低的错词率运行。为了进一步优化模型的大小,谷歌采用了并行实现和高性能云TPU v2硬件,实现了训练速度的三倍加速。这使得模型能够在移动端设备上部署,无需依赖网络连接,大大提升了用户体验。
离线语音识别的实现,意味着用户可以在没有网络连接的情况下使用语音识别功能。这不仅解决了网络延迟和不可靠性的问题,还为语音输入提供了更为普及的应用场景。谷歌发布的新型全神经移动端Gboard语音识别器,首先应用于使用美式英语的Pixel手机,但谷歌计划将其技术扩展到更多语言和应用领域,以满足全球用户的需求。
同时,百度也发布了一款关注语音识别的“百度输入法AI探索版”,默认采用全语音输入方式,并在准确度和速度上达到了很高的水平。百度的语音识别模型采用了流式多级的截断注意力(SMLTA)技术,利用CTC模型的尖峰对连续音频流进行截断,然后在每个截断的小语音片段上进行注意力建模。这种模型不仅解决了长句建模的问题,还提高了实时在线推断的效率。通过大量工程优化,百度的SMLTA模型也能够提供离线语音识别功能,满足了更多用户的需求。