是谁在说话?谷歌多人语音识别新系统错误率降至2%

发布网友发布时间：2024-10-22 04:17

共1个回答

热心网友时间：2024-10-27 13:39

语音识别系统的进步使我们能够更准确地识别对话中不同人的发言。最新研究中，谷歌开发的新说话人分类系统将多人语音分类错误率从20%降低至2%，实现了10倍的性能飞跃。这一系统的关键在于能够识别“谁说了什么”，即“说话人分类”任务。准确区分不同发言者对于自动理解人类对话至关重要。例如，在医生与患者的对话中，患者回答问题与医生反问的区别，取决于发言者身份。

传统说话人分类系统基于声音在声学上的差异进行区分，男人和女人的声音通常较易分辨，而音高变化可以作为区分依据。但这一方法存在局限性，如对话分割不准确、需要知道说话人数量、片段大小与模型准确性权衡、缺乏利用语言线索等问题。谷歌一直在努力改进说话人分类系统，如去年发布的利用监督学习的精确在线说话人分类系统。

谷歌新系统通过集成语音识别和说话人分类，实现了声音和语言线索的无缝结合。关键在于RNN-T架构的使用，它不仅整合了前向-后向算法，还允许模型利用问题结尾等语言线索。训练参考数据包括说话人的语音转录及区分标签，允许模型通过更多对话录音获得类似输出。分析表明，RNN-T系统在所有类型错误率、对话稳定性及ASR转录质量提升方面表现出显著优势。

该集成模型已成为谷歌“理解医疗对话项目”的标准组成部分，并在非医疗语音服务中得到广泛应用。这一进步对于提高人机交互、增强语音助手的对话理解能力、改善医疗和教育等领域的人工智能应用具有重要意义。