智能语音的蜕变，不是一场数字游戏_视频

“芝麻开门。”
“芝麻关门。”
“我要去五楼。”

这几条充满童趣的语句，实际上是控制电梯的语音指令。疫情当前，电梯是非常高风险的区域，尤其是手指碰触电梯按键的时候。针对这一场景，思必驰推出了电梯语音控制模块。“在后装的电梯上也可以进行安装，而且安装起来非常简单方便。” 思必驰 IoT 商务总经理陈苇珍在演示过程中表示。

思必驰 IoT 商务总经理陈苇珍

“97%或者 99%只是实验室数据”

电梯控制是一个典型的语音识别应用场景，技术的进步正在改变人机交互的方式和结果。

语音识别是人机交互中的重要技术，所涉及的领域包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等，近些年语音识别技术取得显著进步，开始从实验室走向市场。

人工智能和机器学习领域权威学者吴恩达此前表示，当语音识别准确率达到 99%时将改变人机交互方式。陈苇珍认为：“不管 97%还是 99%，如果单纯强调这种实验室的语音识别的数据，它的价值会相对有限，需要结合到具体的场景来看，比如说办公、车载、家居、金融等领域的应用场景，再结合大数据的运算和认知计算，才能够真正地形成一个好的交互体验。”

她强调：“思必驰更关注的是完整的人机语音交互技术，除了语音控制之外，更多的是关注交互能力和对话能力。我们的语音识别包括连续的云端识别，还有实时识别、抗噪识别、远场识别以及大词汇识别和本地识别。”

关注思必驰的人都知道他们还有一个“语音识别++”。“除了提供文本信息识别之外，语音识别++也会有情绪识别、年龄识别、声纹识别这些信息。” 陈苇珍介绍说：“我们的情绪识别已经能够去支持覆盖主流的情绪：愤怒、快乐、喜悦等，可以针对性地做出拟人化反映。同时这种分类的识别计算是为了把我们的识别信息进行多样化，辅助生成用户画像。”

让机器能够感受人的喜怒哀乐，从人机交互走向人人交互，甚至是超越人人交互，这个过程确实不只是识别准确率提升的问题。

远场和混合语言是“拦路虎”

在语音识别的具体应用场景中，我们总是能够发现一些有共性且突出的识别障碍，比如远场声音的处理以及混合语言的处理。

远场语音识别常见的场景比如会议室、车载场景、智能家居等，这些场景中会出现较为明显的“鸡尾酒会问题”，出现收音不理想和背景音噪声等情况。

对于远场语音识别而言，不仅要有好的语音识别算法，在硬件层面同样需要一定规格的配置。陈苇珍表示：“思必驰推出了软硬一体化的麦克风阵列解决方案，能够支持在家居环境 5 米的良好交互效果，能够支持 360 度的角度适应。线性阵列方面，能够支持 180 度的角度适应，同时可以实现纯软件算法的降噪。”

另一个障碍是混合语言应用场景，包括中英文混合、方言等。“混合识别确实是比较难攻克的问题，主要难点实际是在声学模型上。目前，我们在声学模型的建模上采用从端到端的中英文交杂输出的方式。这个模型的好处是一个模型能够同时支持中文、英文或者是中英文交杂输出，同时能够保证它的中文性能不受损伤。” 陈苇珍讲到。

结合她的描述，这样的方式是可以复制的，从中文+英文到中文+粤语，甚至是中文+英文+粤语，能够融入的方言还包括上海话、四川话、重庆话和山东话等。

后记

让机器与人能够像人与人一样沟通，这是一种感性的需求。随着智能语音技术的不断精进，人与机器之间必将突破交互的限制，达到交流的程度。在人与人的交流过程中，智慧的人类彼此之间有着更为丰富的表达，对于机器而言人类是“善变”的。因此，让机器找到万变不离其宗的规律，是人机交互更进一步的关键所在。

智能语音的蜕变，不是一场数字游戏

“97%或者 99%只是实验室数据”

远场和混合语言是“拦路虎”

后记

相关推荐

电子产业图谱