当前位置: 首页 > 新闻动态 > AI营销

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

作者:DDD 浏览: 发布日期:2025-02-07
[导读]:小米新一代Kaldi团队在语音识别领域取得重大突破!其论文《CR-CTC:ConsistencyRegularizationonCTCforImprovedSpeechRecognition》已被ICLR2025接收。该论文提出了一种名为CR-CTC的新方法,显著提升了纯CTC语音识别模型的性能,使其与更复杂的Transducer和CTC/AED模型不相上下,甚至在多个数据集上取得了新的SOTA结果。这项研究由Kaldi之父DanielPovey领衔,基于新一代Kaldi开源项目(

小米新一代kaldi团队在语音识别领域取得重大突破!其论文《cr-ctc: consistency regularization on ctc for improved speech recognition》已被iclr 2025接收。该论文提出了一种名为cr-ctc的新方法,显著提升了纯ctc语音识别模型的性能,使其与更复杂的transducer和ctc/aed模型不相上下,甚至在多个数据集上取得了新的sota结果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这项研究由Kaldi之父Daniel Povey领衔,基于新一代Kaldi开源项目(https://www./link/d4ae72ec5374a998c56865d04fb32da5。

论文链接:https://www./link/82d7316e019b5fbd2889b907e203aa32 论文代码:https://www./link/bb0a313f554c3a2b6e9944368512bb9b)

CR-CTC的核心思想是通过一致性正则化来提升CTC模型的性能。 它利用SpecAugment数据增强技术生成两个不同的输入视图,并分别输入到共享参数的编码器中。通过最小化两个CTC概率分布之间的KL散度,CR-CTC有效地约束了模型输出的一致性,从而提高了模型的泛化能力。

论文深入探讨了CR-CTC的三个关键方面:自蒸馏、掩码预测和峰值抑制。实验结果表明,CR-CTC在LibriSpeech、Aishell-1和GigaSpeech等数据集上均取得了显著的性能提升,超越了标准CTC,并与CTC/AED和Transducer模型的效果相当,甚至在与后者联合训练后取得了更好的结果。

这项研究为语音识别技术的发展提供了新的思路,也展现了新一代Kaldi项目在推动开源语音技术进步方面的巨大潜力。 CR-CTC的简洁性和有效性使其具有广泛的应用前景。

免责声明:转载请注明出处:http://m.hclxt.cn/news/226620.html

扫一扫高效沟通

多一份参考总有益处

免费领取网站策划SEO优化策划方案

请填写下方表单,我们会尽快与您联系
感谢您的咨询,我们会尽快给您回复!