问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

中文语音识别系统搭建流程笔记

发布网友 发布时间:2023-01-02 06:11

我来回答

1个回答

热心网友 时间:2023-10-09 04:44

标签:ASR, Python, Keras, CTC

最近在自己动手搭建一个中文语音识别系统,因为也是入门阶段,所以比较吃力,直到在GitHub上找到了一个已经在做的开源工程,找到了做下去的动力,附上原作者项目的GitHub地址: A Deep-Learning-Based Chinese Speech Recognition System
这位作者人非常好,给予了我不少启发。那么在这里也附上我自己工程的地址: ASR
现在工程还处于起步阶段,虽然跑出了一些结果,但并不是很出色,仍旧在做一些调整,有不错的结果的时候就去更新GitHub,那现在就以本文来梳理一下搭建的思路。

在最开始,先介绍一下我使用的数据集。

我所使用的数据集是清华大学THCHS30中文语音数据集。
data_thchs30.tgz OpenSLR国内镜像 OpenSLR国外镜像
该数据集的介绍请参考 THCHS-30:一个免费的中文语料库

在该数据集中,已经分好训练集、验证集和测试集(分别在train、dev、和test文件夹中),其中训练集有10000个样例,验证集有893个样例,测试集有2495个样例,每个样例大约是10秒左右的语音段。
在thchs30这个文件夹里包含了索引性质的文件(cv和dev好像是一毛一样的)

wav.txt是音频文件的相对路径

通常来讲,语音识别常用的特征有MFCC、Fbank和语谱图。
在本项目中,暂时使用的是80维的Fbank特征,提取特征利用python_speech_features库,将特征提取后保存成npy文件。
提取特征在先前的文章中写了详细的做法: 使用python_speech_features提取音频文件特征

将标签中的拼音转换成数字,例:a1为0,a2为1,以此类推。
以第一条数据为例:
lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2
转换到对应的数字列表就是:
597 910 1126 159 1121 451 191 505 1051 1209 208 215 874 939 1168 208 570 599 325 910 597 208 1072 420 1099 634 907 1140 14 829
同样,也将标签保存到npy文件中。

在该系统中我们使用的深度学习模型是由科大讯飞提出的称为全序列卷积神经网络(deep fully convolutional
neural network,DFCNN)模型,论文地址: 语音识别技术的研究进展与展望
他的结构图如下所示:

对于损失函数,这里选择的是CTCLoss。

待更新....
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
女生多大后可以不在长身高? 如何不用软件把手机投屏到电脑上手机屏幕怎样投放到电脑上 战时拒绝、故意延误军事订货罪既遂的处罚? 战时故意延误军事订货罪处罚标准 名师1+1导读方案:汤姆·索亚历险记目录 三星sm-g7200打开微信慢,无法正常收看,网速不慢。 笔记本电脑如何调亮屏幕亮度 大伙说说洗衣机要不要带烘干好 热烘干洗衣机怎么样 ef英语哪个好 在见风使舵,班门弄斧,滥竽充数中任选一个成语,写一篇驳论文 根据张三李四写一篇驳论文600字 史上最优美的轻音乐有哪些 世界名曲轻音乐欣赏前十首 轻音乐十大名曲欣赏 红糖姜汤什么时候放红糖? 梦见老梦我家死去的小狗 梦见死去的家狗 梦见死去的小狗是 梦见过世的狗 梦见我死去的狗狗 梦见我家死去的狗狗 梦见死了好久的狗狗生小狗 梦见死去的狗狗生了两个小狗仔 怎么改第二次 怎么改第二次 我修改了一次,我想修改第二次,怎么办? 怎样可以微信第二次修改呢??? 第二次怎么修改? 怎么修改第二次 注册一定要用手机号吗 注册一定要用手机号吗 必须用手机号申请吗 教学中的得与失 《楞严经》白话大意十三 羽绒服洗完了毛堆在一起怎么办 羽绒服洗完了毛堆在一起解决方法 ...一保存文档总是跳出“由于文件许可权错误,WORD无法完成保存操作... 交通工程论文题目? a股信创板块有哪些龙头公司 微信漂流瓶怎么接任务 白豆蔻的功效与作用 草豆蔻和白豆蔻的区别 立春节气的问候语有哪些 请问一下白豆蔻的功效与作用及禁忌 云南也有网红公路!6.3公里有68个弯,平均93米就有一个弯 天山天池盘山路多少道拐? 这是那里的盘山路?。 开学收心班会发言稿 自驾游横店影视城各景点门票是多少 横店有哪些景点?门票价格怎么样 有关“损兵折将”的成语