问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

谷歌手机输入法可以离线语音识别了!模型精度远超经典CTC

发布网友 发布时间:2024-09-17 02:09

我来回答

1个回答

热心网友 时间:2024-11-24 07:44

谷歌发布了一款端到端的移动端全神经语音识别器,旨在处理Gboard中的语音输入。这款新型语音识别器能够内置在手机设备中,即便在离线状态下也能使用。其特别之处在于能够实现字符级实时输出,为用户提供快速响应,显著提升了用户体验。在相关论文《Streaming End-to-End Speech Recognition for Mobile Devices》中,谷歌研究者展示了使用RNN transcer(RNN-T)技术训练的模型,该模型十分紧凑,足以在手机设备中运行,确保了无需网络延迟或不稳定性,用户可以随时随地使用语音识别功能。模型以字符级运行,用户说话时,它会立即输出单词,就像有人在实时打字一样。

这一新型全神经移动端Gboard语音识别器的发布,标志着在语音识别技术领域的一次重大突破。它不仅在准确性上超越了经典的CTC模型,同时在实时性方面也表现卓越,为用户提供了更加便捷和高效的服务。在文章中提到的视频对比实验中,新模型与服务器端语音识别器进行了直接比较,显示了其在识别相同语音句子时的出色表现。

回顾语音识别的历史,早期的语音识别系统包含多个独立优化的组件,如声学模型、发音模型和语言模型。然而,随着深度学习技术的发展,研究人员开始注重训练单一神经网络,将输入的音频波形直接映射到输出语句上。这种序列到序列的方法,如“基于注意力”和“监听-注意-拼写”模型,显著提高了语音识别的准确性。不过,这些模型在实时性方面仍有待提高,无法在输入的同时实现输出,这正是新模型所解决的问题。

RNN transcer(RNN-T)模型是一种不依赖注意力机制的序列到序列模型,适用于语音听写。它通过连续处理输入样本并生成输出信号,实现了一种高效和实时的语音识别方式。在谷歌的实现中,输出信号是字母表中的字符。随着用户说话,RNN-T 识别器逐个输出字符,并在合适的地方添加空格。同时,模型具备反馈循环,将预测信号输入到模型中,以预测下一个信号。

在新型训练技术的支持下,RNN-T模型的训练变得更加高效,使得模型能够以极低的错词率运行。为了进一步优化模型的大小,谷歌采用了并行实现和高性能云TPU v2硬件,实现了训练速度的三倍加速。这使得模型能够在移动端设备上部署,无需依赖网络连接,大大提升了用户体验。

离线语音识别的实现,意味着用户可以在没有网络连接的情况下使用语音识别功能。这不仅解决了网络延迟和不可靠性的问题,还为语音输入提供了更为普及的应用场景。谷歌发布的新型全神经移动端Gboard语音识别器,首先应用于使用美式英语的Pixel手机,但谷歌计划将其技术扩展到更多语言和应用领域,以满足全球用户的需求。

同时,百度也发布了一款关注语音识别的“百度输入法AI探索版”,默认采用全语音输入方式,并在准确度和速度上达到了很高的水平。百度的语音识别模型采用了流式多级的截断注意力(SMLTA)技术,利用CTC模型的尖峰对连续音频流进行截断,然后在每个截断的小语音片段上进行注意力建模。这种模型不仅解决了长句建模的问题,还提高了实时在线推断的效率。通过大量工程优化,百度的SMLTA模型也能够提供离线语音识别功能,满足了更多用户的需求。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
个人账户养老金预测公式:现有5万元,缴费20年,能领多少钱? 临沂比较有名的男装品牌 呼伦贝尔市悦动网络科技有限公司怎么样? 呼伦贝尔中汇实业有限公司怎么样? 呼伦贝尔油玉不绝电子商务有限公司怎么样? 如何避免wps卡顿? 属鼠的男人找对象是属什么,属鼠的人和什么属相合 96年鼠的姻缘在哪年 属相相合年份运势提升 2024属鼠找对象属什么最佳 黑客攻击网站能报案吗 劣质插座冒烟能退吗 插座冒烟怎么挽救 杜比全景声和dts哪个好 杜比和dts有区别吗? 杜比和DTS哪种音效好啊? 杜比和dts哪个好 什么是dts?和杜比哪个好? 区块链公链怎么部署(关于区块链公链,你需要知道的都在这里了)_百度知 ... 区块链fabric什么? 大陆怎么登陆tiktok 珠宝用英文怎 英文 的珠宝盒、化妆盒、手饰盒分别怎么说?有区别吗?哪个更常用?_百度... 英文 的珠宝盒,化妆盒,手饰盒分别怎么说 月度经营绩效是什么意思? 经营绩效指标有哪些 经营绩效是什么意思 win10电脑遇到问题,需要重新启动怎么办? win10安全模式在哪里 1.5号主线配1.2号子线可以吗? 1.5主线可以配1.2子线吗 公民聘请律师打官司注意哪些细节? 跟律师说去打官司跟他签授权书注意哪些事项 做七礼仪 杭州丧葬习俗有什么讲究 杭州亲人死后做七的具体步骤 济南托福保分班哪个好 破解中考数学压轴题之2:2023武汉中考数学24题 编程员和程序员有区别吗 程序员与编程哪个好 如何调节安全帽的松紧 求翻译:我是新人,所以对业务掌握的不是非常熟练,都是书上理论 刚工作的秘书由于专业知识掌握不熟练,导致工作失误的例子 怎样把图片转文字 excel怎么把图片变成文字 什么软件可以把手机拍出来的照片转换成文字? 欧琳橱柜的优点橱柜有哪些常见的类型 考过1次雅思,口语考的特别差,在考场上怎么才能获得考官的青睐呢?_百 ... 脸上有疤痕不能吃什么 ?脸上有疤怎么办 有疤痕要忌吃什么 新疤是否要忌口