第三章语音信号特征分析

发布网友发布时间：2022-09-09 18:07

共1个回答

热心网友时间：2024-05-19 07:42

语音合成音质的好坏，语音识别率的高低，都取决于对语音信号分析的准确度和精度。例如，利用线性预测分析来进行语音合成，其先决条件是要用线性预测方法分析语音库，如果线性预测分析获得的语音参数较好，则用此参数和成的语音音质就较好。例如，利用带通滤波器组法来进行语音识别，其先决条件是要弄清楚语音共振峰的幅值，个数，频率范围及其分布情况。

语音信号特征的分析可以分为时域，频域和倒谱域。

时域分析简单直观，清晰易懂，物理意义明确。

更多有效的分析是围绕频域进行的，因为语音中最重要的感知特性反应在其功率谱中，其相位变化只起着很小的作用。

常用频域分析有带通滤波器组，傅里叶变换法和线性预测分析法。频谱具有很明显的声学特性，利用频域分析获得的特征具有实际的物理意义，如共振峰参数，基音参数周期等。

倒谱域是对对数功率谱进行傅里叶反变换得到的，可以将声道特性和激励特性有效的分开，更好的揭示语音信号的本质特征。

可以将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型，来分析和提取表征这些模型的特征参数；共振峰模型分析法和线性预测都术语这种方法。凡不进行模型化分析的其他方法都属于非模型分析法，包括上面提到的时域分析法，频域分析法及同态分析法。

贯穿语音信号分析全过程的是“短时分析技术”。短时间内特性基本保持不变，相对稳定，准稳态过程。10~30ms内保持相对平稳。

实际信号常有一些低能量的信号分量超过采样频率的一半，如浊音的频谱超过4khz的分量至少比峰值低40db，而清音，超过8khz，频率分量也没有显著下降，因此语音信号所占的频率范围可以达到10khz以上，但对语音清晰度的有明显影响部分的最高频率为5.7kHZ左右。

电话系统为8kHZ，而时间中，采样频率为8-10kHZ，而语音合成或者语音识别，获得更高的质量，采样频率一般为15——20kHZ。

在一般的识别系统中，采样率最高为16kHZ，当继续增加采样率是，识别率几乎没有增加。

量化：有三种方式，零记忆量化，分组量化和序列量化。

假设语音信号在10~30ms内是平稳的，后面所有的分析都是在这个假设下进行的。

为了得到短时的语音信号，要对语音信号进行加窗的操作，窗函数平滑的在语音信号上滑动，将语音信号分成帧。分帧可以连续，也可以采用交叠分段，交叠部分称为帧移，一般为窗长的一般。

加窗时，不同窗口将影响到语音信号分析的结果

窗的长度对能否反映语音信号的幅度变化起决定性作用。如果N特别大，即等于几个基因周期量级，则窗函数等效于很窄的低通滤波器，此时信号短时信息将缓慢的变化，因而不能充分反映波形变化的细节。如果N特别小，即等于或小于一个基因周期的量级，则信号的能量将按照信号波形的细微状况而很快的启发，但如果N太小，滤波器的通带变宽，则不能获得平滑的短时信息，因此窗口的长度要选择合适。窗的衰减基本与窗的持续时间无关，因此当改变宽度N时，会使带宽发生变化。

窗口长度是相对于语音信号的汲引周期而言，通常认为一个语音帧内，应含有1~7个基音周期，然而不同人的基音周期变化范围很大，基音周期的持续时间会从高音的约20个采样点变化到低音调250个采样点，这意味着可能需要多个不同的N值，所以N的选择比较困难，通常在采样频率10kHZ的情况，N选择100~200量级（10~20ms)持续时间是比较合适的。

有声（V）无声（S）清音（U）判决。

能够实现这些判决的依据再于，不同性质的语音各种短时参数具有不同的概率密度函数，以及相邻的若干帧具有一致的语音特性，不会再S , U, V之间快速变化。

每个语音的输入起点和重点，利用短时平均幅度参数M和短时过零率可以做到这一点。

浊音情况下短时平均幅度参数的概率密度函数P(M|V)确定一个阈值参数M_H.根据M_H可以确定前后两个点A_1和A_2 后肯定是语音段，但精确起点，还要仔细查找。

为此，再设定一个较低的阈值参数M_L, 然后确定B_1 和 B_2，从这两个点之后用短时过零率搜索。清音的过零率高于无声段，但是能量低。

但是在研究结果中表明，利用短时平均过零率区分无声和清音在有些情况下不是很可靠，由于清音的强度会比无声段高一下，将门限提高一些对清音的影响不大，但在没有背景噪声的情况下，无声段将不会穿越这一提高的电平，因为可以正确区分清音和无声段。

因此采用这种过零率，具有抗干扰能力

滤波器可以是宽带带通滤波器，具有平摊的特性，粗略求语音的频谱，频率分辨率低，可以是窄带滤波器，频率分辨率较高。

现在一般都在用数字滤波器，其中如何将模拟滤波器数字化，涉及到零点极点的内容，需要参考DSP的内容。极点波峰，零点波谷。

为窗口函数。

两种方式来理解物理意义

在实际计算时，一般用离散傅里叶变换代替连续傅里叶变换，则需要对信号进行周期延拓。(非周期->连续谱，周期->离散谱)，这时候得到的是功率谱。如果窗长度为 , 那么的长度为 , 如果对以进行周期拓展，则自相关就会出现混叠现象，即这个周期的循环相关函数在一个周期中的值就与线性相关的值不同，这样得到的功率谱就是一组前采样，若想得到全部的个值，可以补充L个零，扩展成2L的信号，并做离散傅里叶变换，这时的循环相关与现行相关是等价的。（后面这句话对我来说暂时是天书）

在对窗函数的分析中，我们知道对于任何一个窗函数都存在旁瓣效应，这时候有谐波效应。

语谱图的时间分辨率和频率分辨率是由所采用的窗函数决定的。假设时间固定，对信号乘以窗函数相当于在频域用窗函数的频率响应与信号频谱的卷积。如果窗函数的频率响应的通带宽度为 ,那么语谱图中的频率分辨率的宽度即为。即卷积的作用将使任何两个相隔间隔频率小于的谱峰合并为一个单峰。对于窗函数而言，通带宽度与窗长成反比，如果希望频率分辨率高，则窗长应该尽量长一些。

对于时间分辨率，假设频率固定，相当于对时间序列做低通滤波，输出信号的带宽就是的带宽b，根据采样定理，只需要以的采样率就可以反映出信号的所有频率成分，这时候所具有的时间分辨率的宽度为 . 因此如果希望时间分辨率高，则窗长应该短一些。因此时间分辨率和频率分辨率是相互矛盾的，这也是短时傅里叶变换本身固有的缺点。

点评：

1.26新增理解：

这类线性主要有短时傅里叶变换与Gabor变换和小波变换，其中STFT和Gabor变换是一种加窗的傅里叶变换，使用固定大小的时频网格，时频网格在时频变换只限于时间平移和频率平移，窗函数固定的，只适用于分析带宽固定的非平稳信号，实际应用中，希望对低频分析，频率分辨率高，高频时间分辨率高，要求窗函数宽度能随之频率变化而变化。小波分析的视频分析网格变化除了时间平移外，还有时间和频率轴比例尺度的改变。适用于分析具有固定比例带宽的非平稳信号。

这类时频由能量谱或功率谱演化而来，其特点是变换为二次的。双线性关系可以表示为

其中为能量谱，而表示取共轭操作。

点评：好像没见过，先跳过。。。。。

在信号分析与信号处理中，信号的“时间中心”及“时间宽度”以及频率中心与频率宽度是非常重要的概念，分别说明信号在时域和频域中心位置在两个域的扩展情况。

信号再这两个物理量的测量上有一个重要的约束原则，就是著名的“不确定性原理”。它的意义是，信号波形在频率轴上的扩张和时间轴上的扩张不可能同时小于某一界限，即若函数和构成一堆傅里叶变换，则不可能同时是短宽度的,即

等号成立的充分必要条件是为高斯函数，即 . 证明，用Cauchy-Schwarts不等式可得。

窗函数为高斯函数的短时傅里叶变换称为Gabor变换。

是大于0的固定常数。由于 , 因此 . 这表明，信号的gabor 变换是对任何在时间附近对傅里叶变换的局部化（在说什么？？），达到了对的精确分解。

Gabor变换是具有最小时频窗的短时傅里叶变换。但进一步研究发现，这两种变换都没有离散的正交基, 所以没有像离散傅里叶变换FFT那种快速算法。而且窗函数固定不变，不能随着所分析信号的成分是高频还是低频做相应的变化。所以这时候有小波变换，能够自动调节窗口长度。

小波理论采用多分辨率的分析的思想，非均匀地划分时频空间，为非平稳信号的分析提供了新途径。

定义：小波是函数空间中满足下述条件的一个函数或者信号

其中表示全体非零实数，为的频域表示形式。称为小波母函数。对于任意实数对，称如下形式的函数为右小波母函数生成的依赖于参数（a,b）的连续小波函数，称为小波，其中a必须为非零实数。

的作用是把基本小波做伸缩，的作用是确定对分析的时间位置，也即是实践中心。在的附近存在明显的波动，而且波动范围的大小完全依赖于尺度因子的变化。时，一致，时，范围比原来小波函数范围大些，小波的波形变得矮宽，变化越来越缓慢，当时，在附近波动范围药效，小波波形尖锐而消瘦。

给定平方可积的信号，即 , 则的小波变换定义为

与傅里叶变换不同，小波变换是一个二元函数。另外，因为母函数只在原点附近才会有明显偏离水平轴的移动，远离原点，迅速衰减为0.

假设小波函数及傅里叶变换都满足窗口函数的要求，他们的窗口中心和半径分别记为和和和 , 可以证明对于任意任意参数对，连续小波变换和其傅里叶变换都满足窗口函数的要求，他们的窗口中心和宽度分别为

则时频窗是平面一个可变的矩形，面积为 . 这个面积只与小波的母函数有关，与无关，但形状随着a变换。

如果按照线性模型理论，语音信号是由激励信号和声道响应卷积产生。解卷就是将各卷积分量分开。解卷算法分为两大类，一类称为“参数解卷”，即线性预测分析，另一类算法称为“非参数解卷”，即同态解卷积，对语音信号进行同态分析后，将得到语音信号的倒谱参数，此时同态分析也称为倒谱分析或者同态处理。

同态处理是一种较好的解卷积方法，它可以较好的将语音信号中的激励信号和声道响应分离，并且只需要用十几个倒谱系数就能相当好的描述语音信号的声道特性，因此占很重要的位置。

通常的加性信号可以用线性系统处理，满足线性叠加原理。然后很多信号是由乘性信号或者卷积信号组合的信号。这样的信号不能用线性系统处理，得用非线性系统处理。但是非线性系统分析起来困难，同态语音辛哈就是将非线性问题转换为线性问题处理。语音信号可以看做是声门激励信号与声道响应的卷积结果，所以下面仅讨论卷积同态信号的处理问题。

同态语音信号处理的一个通用的系统如图3-23所示，其符号表示由卷积组合规则组合起来的空间，即该系统的输入和输出都是卷积性信号。同态系统的一个最主要理论结果是同态系统理论分解，分解的目的是用两个特征系统和一个线性系统来代替非线性的同态系统。分解的情形如下面所示。

分别对应声门激励信号（excitation 和 vocal tract），特征信号是将卷积信号转化为加性信号，这时候进行Z变换，将卷积信号转化为乘积信号（疑问1），这时候得到的就是频谱,然后通过对数运算，变成加性信号，但是这个时候是对数频谱，使用不便。最后再变换回时域信号。

是在倒谱域对信号处理，常见处理方式是将语音声源信号与声道信号分离。在倒谱域，总可以找到一个，当时，声道滤波器的倒谱为0，当时，激励的倒谱接近于0.

如果想再恢复语音信号，用d所示的逆特征系统运算即可。

MFCC (Mel Frequency cepstrum coefficient)，MFCC是将人耳的听觉感知特性和语音产生机制相结合，因此目前大多数语音识别系统广泛使用这种特征。

耳蜗的滤波作用是在对数频率尺度进行的，在1000Hz以下为线性，在1000Hz以上为对数，这就使得人耳对低频比高频更敏感

对频率轴不均匀划分是MFCC特征区别于前面普通倒谱特征的最重要的特点，变换到Mel域后，Mel带通滤波器组的中心频率是按照Mel刻度均匀排列的，实际应用中，MFCC计算过程如下

MFCC有效利用的听觉特性，因此改变了识别系统的性能，如果倒谱位数增加，对识别性能影响不大。但采用动态特征，误识率有20%的下降。

点评2019.01.30：第三四次囫囵吞枣的看完MFCC，即使知道了倒谱，但最后按个离散余弦变换还是比较不能联系上，反正感觉乱乱的吧，包括差分之类的，想被打回哪门语音信号处理课上回炉了，Mark一下，始终有一天会懂其中的深意的。

第三章语音信号特征分析

可以将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数;共振峰模型分析法和线性预测都术语这种方法。凡不进行模型化分析的其他方法都属于非模型分析法,包括上面提到的时域分析法,频域分析法及同态分析法。贯穿语音信号分析全过程的是“短...

音频信息处理技术书籍目录

第3章深入到音频信号的数字化和特征分析，包括信号的采样、量化、短时加窗处理，以及时域和频域分析方法，如傅里叶变换、小波变换等。第4章详细讲解音频信号编码技术，列举了多种常见的音频编码格式，如PCM、MP3、WAV等，以及编码技术的组成和格式转换的相关内容。第5章聚焦于音频分类与场景识别，介绍了...

语音识别文件常用的一些声学特征

另一种重要的声学特征是倒谱系数CEP，通过先对语音信号进行离散傅立叶变换（DFT）取对数，再反变换得到。LPCCEP是在获得滤波器线性预测系数后通过递推公式计算的，使用倒谱可以增强特征参数的稳定性。与这些基于发声机理的特征不同，Mel倒谱系数（MFCC）和感知线性预测（PLP）则是受人耳听觉系统研究的影响。

语音识别的过程是什么?语音识别的方法有哪几种?

语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号，然后通过A/D装置（如声卡）进行采样，从而将连续的电压信号转换为计算机能够处理的数字信号。目前多媒体计算机已经非常普及，声卡、音箱、话筒等已是个人计算机的基本设备。其中声卡是计算机对语音信进行加工的重要部件，...

语音识别文件声学特征

声学特征提取本质上是对语音信号进行高效处理的过程，它要求在短时间内对信号进行分析，这就引入了短时分析的概念。这个时间段内的语音信号被认为是相对稳定的，我们将其划分为一个个小片段，称为帧，相邻帧之间的切换通常以帧长的1/2或1/3为间隔。为了增强处理效果，预加重技术在这一环节中被广泛应用...

语音学图书目录

接着，第二章声波深入探讨了声波的性质和分析，以及语音的四要素——响度、频率、持续时间和音色。这部分还涉及共振、言语声波和语音信号的详细分析。第三章发声态从喉部结构出发，讲解了清声、浊声、弛声、僵声和假声等不同类型，以及发声态与松紧度的关系，阐述研究发声态的重要意义。在第四章，调音...

语音信号处理中怎么理解分帧,为什么?

而语音在宏观上来看是不平稳的——你的嘴巴一动，信号的特征就变了。但是从微观上来看，在比较短的时间内，嘴巴动得是没有那么快的，语音信号就可以看成平稳的，就可以截取出来做傅里叶变换了。这就是为什么语音信号要分帧处理，截取出来的一小段信号就叫一「帧」。如下图：这段语音的前三分之一...

语音信号提取声学特征时,MFCC和PLP的区别是什么?

首先，语音信号的生成过程是激励信号和信道冲激响应的卷积。为了精准分析，我们需要根据目标进行信号的强化或提取。例如，如果要区分清音和浊音，MFCC的同态解卷过程就显得尤为重要，通过将非线性卷积问题转化为线性处理，再通过对数处理和频谱变换，得到倒谱特征，有助于识别基音频率。相比之下，PLP采用线性...

语谱图从语谱图上到底可以看出什么信息

由于语音信号通常具有周期性，强点的频率分布呈现周期性规律，比如300Hz的强点会在其倍频位置n*300Hz处重现，因此语谱图呈现出条纹状的特征。虽然人类发声器官的自然音域通常限制在4000Hz以下，乐器的音域更为宽广，例如打击乐器可达20KHz。然而，数字分析过程中，我们通常使用FFT等算法，其结果会受到采样率...

语音信号处理 Speech Signal Processing

语音信号，如同人声的产生，是由大脑控制下的生理活动，耳部结构能解析出音高、音强和音色等信息。人类对频率的感知并非均匀，低频段更为敏感。语音识别技术模仿人类对信号的处理，通过分析频率和振幅等特征，提取关键信息。语音信号由周期性、非周期性和随机噪声信号组成，其中周期信号（如正弦波）由特定频率...

信号与系统张小虹第三章信号与系统杨晓非第三章信号与系统第三章信号与系统余成波第三章答案信号与系统第三章答案信号与系统沈元隆答案第三章信号与编码第三章答案猪的信号第三章信号与系统第三章答案郑君里

第三章 语音信号特征分析

第三章语音信号特征分析