谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC

发布网友发布时间：2024-09-17 02:09

共1个回答

热心网友时间：2024-11-24 07:44

谷歌发布了一款端到端的移动端全神经语音识别器，旨在处理Gboard中的语音输入。这款新型语音识别器能够内置在手机设备中，即便在离线状态下也能使用。其特别之处在于能够实现字符级实时输出，为用户提供快速响应，显著提升了用户体验。在相关论文《Streaming End-to-End Speech Recognition for Mobile Devices》中，谷歌研究者展示了使用RNN transcer（RNN-T）技术训练的模型，该模型十分紧凑，足以在手机设备中运行，确保了无需网络延迟或不稳定性，用户可以随时随地使用语音识别功能。模型以字符级运行，用户说话时，它会立即输出单词，就像有人在实时打字一样。

这一新型全神经移动端Gboard语音识别器的发布，标志着在语音识别技术领域的一次重大突破。它不仅在准确性上超越了经典的CTC模型，同时在实时性方面也表现卓越，为用户提供了更加便捷和高效的服务。在文章中提到的视频对比实验中，新模型与服务器端语音识别器进行了直接比较，显示了其在识别相同语音句子时的出色表现。

回顾语音识别的历史，早期的语音识别系统包含多个独立优化的组件，如声学模型、发音模型和语言模型。然而，随着深度学习技术的发展，研究人员开始注重训练单一神经网络，将输入的音频波形直接映射到输出语句上。这种序列到序列的方法，如“基于注意力”和“监听-注意-拼写”模型，显著提高了语音识别的准确性。不过，这些模型在实时性方面仍有待提高，无法在输入的同时实现输出，这正是新模型所解决的问题。

RNN transcer（RNN-T）模型是一种不依赖注意力机制的序列到序列模型，适用于语音听写。它通过连续处理输入样本并生成输出信号，实现了一种高效和实时的语音识别方式。在谷歌的实现中，输出信号是字母表中的字符。随着用户说话，RNN-T 识别器逐个输出字符，并在合适的地方添加空格。同时，模型具备反馈循环，将预测信号输入到模型中，以预测下一个信号。

在新型训练技术的支持下，RNN-T模型的训练变得更加高效，使得模型能够以极低的错词率运行。为了进一步优化模型的大小，谷歌采用了并行实现和高性能云TPU v2硬件，实现了训练速度的三倍加速。这使得模型能够在移动端设备上部署，无需依赖网络连接，大大提升了用户体验。

离线语音识别的实现，意味着用户可以在没有网络连接的情况下使用语音识别功能。这不仅解决了网络延迟和不可靠性的问题，还为语音输入提供了更为普及的应用场景。谷歌发布的新型全神经移动端Gboard语音识别器，首先应用于使用美式英语的Pixel手机，但谷歌计划将其技术扩展到更多语言和应用领域，以满足全球用户的需求。

同时，百度也发布了一款关注语音识别的“百度输入法AI探索版”，默认采用全语音输入方式，并在准确度和速度上达到了很高的水平。百度的语音识别模型采用了流式多级的截断注意力（SMLTA）技术，利用CTC模型的尖峰对连续音频流进行截断，然后在每个截断的小语音片段上进行注意力建模。这种模型不仅解决了长句建模的问题，还提高了实时在线推断的效率。通过大量工程优化，百度的SMLTA模型也能够提供离线语音识别功能，满足了更多用户的需求。