加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

NVIDIA利用AI强化机器合成语音拟真感

2021/09/17
172
阅读需 4 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

过去自动电话语音和 GPS 导航系统都只能发出生硬的机器合成声音,人工智慧(AI)可以协助让智慧型手机和智慧音箱中的虚拟助理呈现逼真的语调。不过,AI合成的声音和人们在日常对话及媒体中听到的真实人声之间,还是差了一点,原因在于人们说话时带有複杂的节奏、音调和音色,这是很难以 AI 仿真出来的。有鉴于此,NVIDIA的研究人员正在打造高品质、可控制的语音合成模型与工具,它们能捕捉人类口语中的丰富细节,又不会听起来人工感很重。

NVIDIA透过AI强化机器语音的拟针感

这些模型有助银行和零售商的自动语音客服,也能让电玩游戏或书籍中的人物更为生动,并即时为数位分身加上合成语音。NVIDIA内部的创意团队甚至运用这项技术,为一支介绍AI的系列影片制作出富有表现力的旁白内容。

表达性语言合成只是 NVIDIA Research 团队在对话式 AI 的其中一项研究,此领域还包括自然语言处理、自动语音辨识、关键字侦测、音讯增强等。这项研究成果的部分内容已透过NVIDIA NeMo工具套件成为开放原始码,可以在NGC容器及其它软体中心取得,并经最佳化调整,能在NVIDIA GPU上高效执行。

另外,NVIDIA的研究人员与创意专家将对话式AI导入该公司的《I AM AI》系列影片中,实际运用语音合成模型,介绍重塑各产业发展的全球AI创新者。过去的语音合成模型对于合成声音的节奏和音调控制能力有限,因此和真人旁白的影片相比,尝试以AI制作影片旁白无法激起观众的情感。

随着NVIDIA的文字转语音研究团队发展出更强大、控制能力更强的语音合成模型,透过RAD-TTS,使用个人说话的声音来训练文字转语音模型,可以将任何文字提示变成说话者的声音。声音转换是它的另一项功能,例如画面上是A在说话(甚至是唱歌),观众们听到的却是B的声音。设计RAD-TTS介面的灵感来源是将人的声音当成一种乐器,使用者便能够逐帧微调合成声音的音调、持续时间和能量。

影片制作人可以使用这个介面,录制自己读出影片脚本的声音,接著用 AI 模型将说话内容变成女性旁白者的声音。制作人可以再运用这个基本的旁白内容,像配音员一样指导AI并进行调整,让合成出来的语音强调特定字眼、修改旁白节奏,以更贴切地表达影片的调性。

该AI模型不只能用在配音上:文字转语音的功能还能用在游戏、协助声音机能或语言机能障碍者,或帮助使用者用自己的声音翻译不同语言;甚至还能重现著名歌手的表演,不仅可以配合歌曲旋律,还能配合人声背后所表达的情感。

英伟达

英伟达

NVIDIA(中国大陆译名:英伟达,港台译名:辉达),成立于1993年,是一家美国跨国科技公司,总部位于加利福尼亚州圣克拉拉市,由黄仁勋、克里斯·马拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同创立。公司早期专注于图形芯片设计业务,随着公司技术与业务发展,已成长为一家提供全栈计算的人工智能公司,致力于开发CPU、DPU、GPU和AI软件,为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。

NVIDIA(中国大陆译名:英伟达,港台译名:辉达),成立于1993年,是一家美国跨国科技公司,总部位于加利福尼亚州圣克拉拉市,由黄仁勋、克里斯·马拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同创立。公司早期专注于图形芯片设计业务,随着公司技术与业务发展,已成长为一家提供全栈计算的人工智能公司,致力于开发CPU、DPU、GPU和AI软件,为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。收起

查看更多

相关推荐

电子产业图谱

新电子科技杂志于1986年创刊,以中国台湾信息电子上下游产业的讯息桥梁自居,提供国际与国内电子产业重点信息,以利产业界人士掌握自有竞争力。 内容编辑方面,彻底执行各专栏内容质量,透过读者回函了解读者意见,调整方向以专业丰富的内容建立特色;定期举办研讨会、座谈会、透过产业厂商的参与度,树立专业形象;透过因特网丰富信息的提供,信息扩及华人世界。