是谁在说话?谷歌多人语音识别新系统错误率降至2%
发布网友
发布时间:2024-10-22 04:17
我来回答
共1个回答
热心网友
时间:2024-10-27 13:39
语音识别系统的进步使我们能够更准确地识别对话中不同人的发言。最新研究中,谷歌开发的新说话人分类系统将多人语音分类错误率从20%降低至2%,实现了10倍的性能飞跃。这一系统的关键在于能够识别“谁说了什么”,即“说话人分类”任务。准确区分不同发言者对于自动理解人类对话至关重要。例如,在医生与患者的对话中,患者回答问题与医生反问的区别,取决于发言者身份。
传统说话人分类系统基于声音在声学上的差异进行区分,男人和女人的声音通常较易分辨,而音高变化可以作为区分依据。但这一方法存在局限性,如对话分割不准确、需要知道说话人数量、片段大小与模型准确性权衡、缺乏利用语言线索等问题。谷歌一直在努力改进说话人分类系统,如去年发布的利用监督学习的精确在线说话人分类系统。
谷歌新系统通过集成语音识别和说话人分类,实现了声音和语言线索的无缝结合。关键在于RNN-T架构的使用,它不仅整合了前向-后向算法,还允许模型利用问题结尾等语言线索。训练参考数据包括说话人的语音转录及区分标签,允许模型通过更多对话录音获得类似输出。分析表明,RNN-T系统在所有类型错误率、对话稳定性及ASR转录质量提升方面表现出显著优势。
该集成模型已成为谷歌“理解医疗对话项目”的标准组成部分,并在非医疗语音服务中得到广泛应用。这一进步对于提高人机交互、增强语音助手的对话理解能力、改善医疗和教育等领域的人工智能应用具有重要意义。