发布网友 发布时间:2022-04-22 14:26
共5个回答
热心网友 时间:2023-11-09 01:36
我们日常用的智能助理、导航语音、甚至听到的一些新闻播报,用到的都是机器合成的语音。
AI 主播每天自动合成语音和视频生产新闻内容
如何合成一段语音
语音合成看起来很复杂,但其实合成语音我们自己在家就能做:
比如把「 支付宝到账 」、「 元 」和「 一二三四五六 」一类的词都录好,以特定的拼接组合方式播放出来,你就收获了中国 8 亿支付宝用户都听过的报账声。
当然了你自己录的声音既不甜美,也收不到钱
这种通过「 拼接 」一段段音频,最终获得一份语音的方式,就叫做拼接法。
拼接法制作的合成音,在日常生活中其实最早可以追溯到你家街边拐角当年放学以后必去的小卖部里那位收银阿姨在结账时手里按着的那个超大号计算器的语音播报声。
“ 加一,加一,加二,等于,归零!”
最原始的拼接法录制的样本就是那么几个固定短语句子,给导航录的音就只能用于导航,你要是问它今天天气怎么样,它哪怕知道答案也没法用语音播报出来。
后来,有个聪明人一拍脑袋,想出来一个绝招:要是我把每个中文字都录一遍,不就什么话都能拼起来了么。
不过,拼接法合成的语句还有一个重大缺陷:语气和停顿。
给支付宝配音的展妍小姐姐就曾自曝,在录「 四 」的音时录了好几个发音,才保证了不同场景下的合成效果。并且拼接法也不知道该怎么给「 小明找不到 / 爸爸妈妈很着急 」,「 小明找不到爸爸妈妈 / 很着急 」断句。
拼接法能解决每一个字怎么念的问题,但是读出来肯定不像一个正常人。
所以怎么让合成语音听起来更*真,成了大家优化的重中之重。
如何让语音更*真
这个时候,除了增加样本量,我们还必须引入另外一样关键的技术:算法。
有了算法的合成音就仿佛被注入了灵魂。说的直白点,就是「聪明的算法,知道怎么处理一句话的语气和停顿」。
而这种使用算法辅助生成合成音的方式,叫做参数法。
参数法对音源的要求自然更高,「 消除静音片段 」、「 专业录音环境 」这些都是常规操作,最关键的是,需要录制的声音不再是字的发音了。
热心网友 时间:2023-11-09 01:36
那个肯定是非常*真了,一般来说是找不到漏洞的。热心网友 时间:2023-11-09 01:37
他们这些电话是通过大数据来处理,然后筛选出你最动心的信息。热心网友 时间:2023-11-09 01:38
不在于这个电话有多*真,这与这个人有没有这么多钱,是不是这么二。热心网友 时间:2023-11-09 01:38
几乎可以做到滴水不漏,让你信以为真,要不然怎么进行骗钱。