阿里通义Fun-ASR1.5震撼发布:30国语言与七大方言精准识别,AI语音技术再攀高峰

阿里通义实验室重磅发布Fun-ASR1.5语音识别大模型,这款基于统一架构的AI语音识别系统实现了跨语言、跨方言的突破性进展。该模型不仅支持全球30种主流语言的精准识别,更在中文七大方言体系及20余种地方口音的处理上展现出卓越性能,甚至能够准确转写古诗词吟诵等特殊语音场景。

在技术架构方面,Fun-ASR1.5采用了创新的MoE(混合专家)架构,通过动态激活特定专家模块的方式,实现了对多语言混合场景的无缝处理。这种"智能分工"机制使得模型在面对复杂的Code-Switching场景时,能够自动识别并切换语言,无需预设语种标签。训练过程中采用的分阶段数据优化策略,进一步提升了模型在真实语音环境中的适应能力。


针对中文本土化应用,研究团队投入了数十万小时的真实方言语音数据进行模型训练,使平均字错误率(CER)较上一代产品显著降低56.2%。模型不仅能够准确识别如上海话"侬"、苏州话"倷"等特色方言词汇,更能保持方言的原汁原味,为后续的文本处理提供了高质量的语料基础。


特别值得一提的是,Fun-ASR1.5在中华传统文化传承方面展现出独特价值。研究团队专门构建了涵盖先秦至近代的古诗词语音-文本对齐语料库,包含《诗经》《楚辞》等经典文本的真人诵读数据。在内部测试中,模型对古诗词的字符级识别准确率高达97%,为国学教育数字化提供了强有力的技术支持。


在实用功能方面,该模型具备智能标点插入和口语规范化处理能力,能够将原始语音自动转换为符合书面表达规范的文本。这一特性显著降低了会议纪要、新闻采访、法律笔录等场景的后期编辑成本,提升了工作效率。


目前,Fun-ASR1.5已在阿里云百炼平台正式上线,同时开放魔搭社区体验通道,为教育、传媒、金融、科技、文化等多个行业提供专业的语音识别API服务。