语音信号处理对数谱距离和谱距离有什么用

发布网友发布时间：2022-05-11 14:29

共1个回答

热心网友时间：2023-10-14 03:53

数字技术的出现与应用为人类带来了深远的影响，人们如今已生活在一个几乎数字化的世界之中，而数字音频技术则称得上是应用最为广泛的数字技术之一，CD、VCD等早已走进千家万户，数字化广播正在全球范围内逐步得到开展，正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题：数字音频压缩技术得以产生和发展的动力。1、音频压缩技术的出现及早期应用音频压缩技术指的是对原始数字音频信号流（PCM编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。数字信号的优势是显而易见的，而它也有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。以CD为例，其采样率为44.1KHz，量化精度为16比特，则1分钟的立体声音频信号需占约10M字节的存储容量，也就是说，一张CD唱盘的容量只有1小时左右。当然，在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢？研究发现，直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声音至少可进行4：1压缩，即只用25％的数字量保留所有的信息，而在视频领域压缩比甚至可以达到几百倍。因而，为利用有限的资源，压缩技术从一出现便受到广泛的重视。对音频压缩技术的研究和应用由来已久，如A律、u律编码就是简单的准瞬时压扩技术，并在ISDN话音传输中得到应用。对语音信号的研究发展较早，也较为成熟，并已得到广泛应用，如自适应差分PCM（ADPCM）、线性预测编码（LPC）等技术。在广播领域，NICAM（NearInstantaneousCompandedAudioMultiplex-准瞬时压扩音频复用）等系统中都使用了音频压缩技术。2、音频压缩算法的主要分类及典型代表一般来讲，可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类，而按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。（1）时域压缩（或称为波形编码）技术是指直接针对音频PCM码流的样值进行处理，通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低，声音质量一般，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）。此类压缩技术一般多用于语音压缩，低码率应用（源信号带宽小）的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP，以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM（SB-ADPCM）技术如G.721、G.722、Apt-X等。（2）子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型（心理声学模型），通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的，因此又可称为感知型（Perceptual）压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。一般来讲，子带编码的复杂度要略低于变换编码，编码延时也相对较短。由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型，因而在对信号进行压缩时引入了大量的量化噪声。然而，根据人类的听觉掩蔽曲线，在解码后，这些噪声被有用的声音信号掩蔽掉了，人耳无法察觉；同时由于子带分析的运用，各频带内的噪声将被*在频带内，不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同，采用了动态比特分配技术，这也正是此类技术压缩效率高的主要原因。在一定的码率条件下，此类技术可以达到“完全透明”的声音质量（EBU音质标准）。子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ（MUSICAM），以及用于PhilipsDCC中的PASC（PrecisionAdaptiveSubbandCoding，精确自适应子带编码）等。（3）变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换，对所获得的变换域参数进行量化、传输，而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT（离散余弦变换）、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善，而相应付出的代价则是计算复杂度的提高。变换域压缩具有一些不完善之处，如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步，这些缺陷正逐步被消除，同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC（AudioSpectralPerceptualEntropyCoding）、PAC（PerceptualAudioCoder）等。3、音频压缩技术的标准化和MPEG-1由于数字音频压缩技术具有广阔的应用范围和良好的市场前景，因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT（现ITU-T）在语音信号压缩的标准化方面做了大量的工作，制订了如G.711、G.721、G.728等标准，并逐渐受到业界的认同。在音频压缩标准化方面取得巨大成功的是MPEG-1音频（ISO/IEC11172-3）。在MPEG-1中，对音频压缩规定了三种模式，即层Ⅰ、层Ⅱ（即MUSICAM，又称MP2），层Ⅲ（又称MP3）。由于在制订标准时对许多压缩技术进行了认真的考察，并充分考虑了实际应用条件和算法的可实现性（复杂度），因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ；而MUSICAM由于其适当的复杂程度和优秀的声音质量，在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用；MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术，在当时的技术条件下，MP3的复杂度显得相对较高，编码不利于实时，但由于MP3在低码率条件下高水准的声音质量，使得它成为软解压及网络广播的宠儿。可以说，MPEG-1音频标准的制订方式决定了它的成功，这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。

语音信号处理 对数谱距离和谱距离有什么用

语音信号处理对数谱距离和谱距离有什么用