NVIDIA利用AI强化机器合成语音拟真感

过去自动电话语音和 GPS 导航系统都只能发出生硬的机器合成声音，人工智慧(AI)可以协助让智慧型手机和智慧音箱中的虚拟助理呈现逼真的语调。不过，AI合成的声音和人们在日常对话及媒体中听到的真实人声之间，还是差了一点，原因在于人们说话时带有複杂的节奏、音调和音色，这是很难以 AI 仿真出来的。有鉴于此，NVIDIA的研究人员正在打造高品质、可控制的语音合成模型与工具，它们能捕捉人类口语中的丰富细节，又不会听起来人工感很重。

NVIDIA透过AI强化机器语音的拟针感

这些模型有助银行和零售商的自动语音客服，也能让电玩游戏或书籍中的人物更为生动，并即时为数位分身加上合成语音。NVIDIA内部的创意团队甚至运用这项技术，为一支介绍AI的系列影片制作出富有表现力的旁白内容。

表达性语言合成只是 NVIDIA Research 团队在对话式 AI 的其中一项研究，此领域还包括自然语言处理、自动语音辨识、关键字侦测、音讯增强等。这项研究成果的部分内容已透过NVIDIA NeMo工具套件成为开放原始码，可以在NGC容器及其它软体中心取得，并经最佳化调整，能在NVIDIA GPU上高效执行。

另外，NVIDIA的研究人员与创意专家将对话式AI导入该公司的《I AM AI》系列影片中，实际运用语音合成模型，介绍重塑各产业发展的全球AI创新者。过去的语音合成模型对于合成声音的节奏和音调控制能力有限，因此和真人旁白的影片相比，尝试以AI制作影片旁白无法激起观众的情感。

随着NVIDIA的文字转语音研究团队发展出更强大、控制能力更强的语音合成模型，透过RAD-TTS，使用个人说话的声音来训练文字转语音模型，可以将任何文字提示变成说话者的声音。声音转换是它的另一项功能，例如画面上是A在说话(甚至是唱歌)，观众们听到的却是B的声音。设计RAD-TTS介面的灵感来源是将人的声音当成一种乐器，使用者便能够逐帧微调合成声音的音调、持续时间和能量。

影片制作人可以使用这个介面，录制自己读出影片脚本的声音，接著用 AI 模型将说话内容变成女性旁白者的声音。制作人可以再运用这个基本的旁白内容，像配音员一样指导AI并进行调整，让合成出来的语音强调特定字眼、修改旁白节奏，以更贴切地表达影片的调性。

该AI模型不只能用在配音上：文字转语音的功能还能用在游戏、协助声音机能或语言机能障碍者，或帮助使用者用自己的声音翻译不同语言；甚至还能重现著名歌手的表演，不仅可以配合歌曲旋律，还能配合人声背后所表达的情感。