1 月 24 日,由昆山杜克大学、联想研究院和北京邮电大学,在 2021 中文口语语言处理国际会议(ISCSLP 2021)上发起的个性化唤醒语音挑战赛圆满结束,并通过 B 站和 Zoom 线上进行了收官研讨会。
挑战赛吸引了来自知名高校、研究机构、企业人工智能部门以及初创企业的几十支团队参加,包括北京大学、西北工业大学、厦门大学、小米、出门问问、普强、实地地产和杭州国芯等。最终,在比赛的两个任务中,即近场单通道语音个性化唤醒任务,和远场多通道语音个性化唤醒任务中,小米、西工大、出门问问和实地地产获得了前三名的佳绩。
标志着本次挑战赛收官的线上研讨会由昆山杜克李明教授主持,联想集团副总裁、联想研究院人工智能实验室负责人范建平博士开场致辞,联想研究院语音团队总监汪俊杰和北京邮电大学葛凤培教授在会上宣布了获奖团队并为其颁奖。此外,研讨会还邀请了 ISCSLP 技术委员会主席、香港理工大学麦文伟教授进行了技术分享。
挑战赛充分考虑应用场景,综合考察语音唤醒和声纹识别的联合性能,提供包含数百人复杂场景下实际采集的语音数据集,是一套包含近场和远场、多通道多设备、唤醒词和自由文本相结合的复杂数据集,可支持复杂场景语音唤醒、声纹识别和语音识别技术的研究。
本次赛事中,个性化语音唤醒考察的是带有声纹认证功能的语音唤醒技术,唤醒词是“小乐小乐”,每个目标人有 3 句语音作为注册样本,只有目标人的讲话内容是“小乐小乐”时设备唤醒才算正确,目标人所讲的其他内容、非目标人讲的“小乐小乐”均不能唤醒设备。比赛设置了两个赛道,一个是近场单通道个性化语音唤醒任务,即声纹注册数据和待识别的测试数据都是由近讲设备采集的单通道语音,另外一个是远场多通道个性化语音唤醒任务,其中声纹注册数据是近讲数据,而测试数据是远场设备采集的多通道语音数据,体现了实际应用场景中跨信道、复杂声学环境等因素的影响,是智能家居、会议场景所面临的典型问题。
在比赛中,有的参赛团队使用了较为传统的唤醒模块和声纹模块两级串联架构,而有的参赛者采用了多任务学习和联合训练的架构,涵盖了当前业界主流和先进的技术路线。
所采用的性能评价指标是检测代价得分(DCF,Detection Cost Function),考虑错误拒绝(FR, False Rejection)和错误接受(FA, False Acceptance)两类错误的不同代价,得分越小代表系统性能越好。
带有身份认证的语音唤醒技术是语音技术发展的重要领域之一,也是智能物联网安全发展的重要驱动力。
联想集团副总裁、联想研究院人工智能实验室负责人范建平博士在线上讨论会上表示:“联想作为智能化变革的引领者和赋能者,一直致力于推动人工智能核心技术和应用的发展。通过举办此次活动,希望能够加速个性化语音唤醒技术的进步和落地应用,推动建立行业基准,促进产学研进一步的合作和发展。”