智能音箱在ASR（语音识别）以及NLP自然语义处理常用框架

通常情况，一款只能语音类产品在正式上市之前，在技术层面上需要多方配合，通常每一块领域都有专门擅长的团队提供技术，这个在之前做智能音箱产品介绍的时候有单独提过。

接下来关于智能音箱常用架构做一些参考说明，首先介绍如下常用词：

ASR：Automatic Speech Recognition

NLP：Natural language processing

TTS：Text-to-speech

STT：Speech to text

分别为语音识别，自然语言处理，文字转化为对话，以及对话转换为文字。

那么在智能音箱的实际架构上，首先，用户与智能音箱之间的交互，通过ASR完成，也就是音箱上的麦克风通过数据处理判断用户在说话，并通过唤醒词，或功能唤醒词等确认用户是在向音箱发送指令。常用语音助手指令例如Alexa，Cortana，Siri等等，都是专门经过唤醒词训练的。语音唤醒在学术上被称为keyword spotting(简称KWS)，它指的是在连续语流中实时检测出说话人特定片段。语音唤醒系统的评测标准通常包括误识率和拒认率两个部分。误识率指用户未发出命令，但系统却错误的被唤醒的情况。拒认率指用户发出了唤醒命令，但系统却没有相应的情况。误识率和拒认率越低，证明系统越稳定。

这里额外提一下，唤醒词（wake up words）的存在是为了方便用户更好的向智能音箱传输指令，那么为了避免噪声，数据处理不完全，有口音和发音问题等因素，我们需要针对这个唤醒词做系统训练，以便能够更加方便唤醒，并避免误唤醒的情况。通常，市面上唤醒词训练公司针对一个唤醒词的模型训练量大概5000~8000，而通常训练数据也有精细数据，和粗略数据（后者训练效果可能没有前者号），举例如下一种非常基本的唤醒词模型训练方案：

既，用产品本身的麦克风模拟实际的收音现场，用户分别在不同的距离面向产品，以三挡语速念出唤醒词。当然，粗略数据也可以找很多人，用手机麦克风简单录制数据，因个人的发音，语速，音调均会有所不同，因此也能起到训练意义。

硬件本身被唤醒之后，接下来麦克风将开始“倾听“用户说话，目前有很多方案是将对话内容生成wav录音文件直接上传至云端，开始进行STT，也就是将一段音频转换为一段文字，数据信息从wav文件变成了text文件形式，但是此时我们还并不知道用户意图，这一段文字目前仅仅是text形式文件而已，接下来text会进入下一个阶段，也就是NLP处理（自然语义理解），自然语言处理（英语：Natural Language Processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言处理包括多方面和步骤，基本有认知、理解、生成等部分。自然语言处理的主要范畴包括中文自动分词、词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取、文字校对、问答系统、机器翻译、文字蕴涵、命名实体识别等。

目前比较专精在中文NLP供应商有三角兽、蓦然认知、图灵、灵犀等；（其他很多同样积累NLP技术的公司，但是可能提供了可提供麦克风阵列、语音唤醒、语音识别、语义理解、语音合成等一系列语音技术，甚至平台技术，故不做此列）

这里既接入另外一个概念， Named Entity Recognition (NER) 命名实体识别，简单了解既讲一段文字进行分词，用于进一步的文本意图理解，概念介绍如下：

那么，很多接触过NLP的小伙伴们也大概了解，很多公司在NLP领域做专门研究，国内目前也很有多机构正在做相关研究，具体可以参考此篇文章：NLP（中文）团队研究

目前专精于NLP的团队的技术背景，通常需要有搜索引擎以及百科类知识图谱的框架。难点也在于，很多名词指向的内容分类有可能是多方面的，既可能是音乐类，也可能是百科，闲聊，有声读物类，故而在区分意图方面需要经常调整架构，这也是那句“人工智能靠人工“的调侃由来吧。

总之，理解了用户的意图，并给出准确的回答这一套逻辑，最终，生成了给到用户的完整回答。比如，现在时间是XX；马上为您播放周杰伦的《晴天》live版等等；并在云端将文字转换成音频，也就是我们常说的TTS（语音合成），它是将人类语音用人工的方式所产生。文字转语音（text-to-speech，TTS）系统将一般语言的文字转换为语音。

目前国内的主流语音合成方案有科大讯飞、搜狗、云知声、思必驰等。

而语音合成目前市面上一般使用参数合成，或者拼接合成，前者的音库都是在10小时左右，基本用不到20小时，对于合成人声效果的自然度，更依赖算法，而拼接则对于数据的需求量很高，对合成人声效果的自然度，更依赖数据量。很多听起来很自然的音库时长在100~200小时左右。

以及，TTS模型通常也会分为中文，英文，或者中英混输的。做训练的文本，有很多文字比较拗口，故而对录音声优的功力有要求，中英混输的模型数据就更难了。如果是普通的中文TTS模型，以刚才的例子“马上为您播放周杰伦的《晴天》live版本”，这种就可以在录音时加入一些简单的字母，单词，短语等等。

合成的wav文件回传到终端音箱，并播放出来，如此，完成了一环基础的用户与智能硬件之间的对话。

P.S.这里单独介绍一个常与自然语言处理弄混的概念：Neuro-linguistic programming (NLP)

通常用于我们说的机器学习，或者神经网络处理，通常是指我们通过Sigmoid函数尝试模拟人脑神经之间传递并处理信息的方式。关于Perception以及Sigmoid函数的概念区别，后面会单独做一个相对生动的举例来做说明，总体的信息处理模式非常类似于我们电路常用与或非门，这一部分（模拟计算机处理），在《三体》里面有更加生动的描述，非常有趣。

智能音箱在ASR（语音识别）以及NLP自然语义处理常用框架

相关推荐