“芝麻开门。”
“芝麻关门。”
“我要去五楼。”
这几条充满童趣的语句,实际上是控制电梯的语音指令。疫情当前,电梯是非常高风险的区域,尤其是手指碰触电梯按键的时候。针对这一场景,思必驰推出了电梯语音控制模块。“在后装的电梯上也可以进行安装,而且安装起来非常简单方便。” 思必驰 IoT 商务总经理陈苇珍在演示过程中表示。
思必驰 IoT 商务总经理陈苇珍
“97%或者 99%只是实验室数据”
电梯控制是一个典型的语音识别应用场景,技术的进步正在改变人机交互的方式和结果。
语音识别是人机交互中的重要技术,所涉及的领域包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等,近些年语音识别技术取得显著进步,开始从实验室走向市场。
人工智能和机器学习领域权威学者吴恩达此前表示,当语音识别准确率达到 99%时将改变人机交互方式。陈苇珍认为:“不管 97%还是 99%,如果单纯强调这种实验室的语音识别的数据,它的价值会相对有限,需要结合到具体的场景来看,比如说办公、车载、家居、金融等领域的应用场景,再结合大数据的运算和认知计算,才能够真正地形成一个好的交互体验。”
她强调:“思必驰更关注的是完整的人机语音交互技术,除了语音控制之外,更多的是关注交互能力和对话能力。我们的语音识别包括连续的云端识别,还有实时识别、抗噪识别、远场识别以及大词汇识别和本地识别。”
关注思必驰的人都知道他们还有一个“语音识别++”。“除了提供文本信息识别之外,语音识别++也会有情绪识别、年龄识别、声纹识别这些信息。” 陈苇珍介绍说:“我们的情绪识别已经能够去支持覆盖主流的情绪:愤怒、快乐、喜悦等,可以针对性地做出拟人化反映。同时这种分类的识别计算是为了把我们的识别信息进行多样化,辅助生成用户画像。”
让机器能够感受人的喜怒哀乐,从人机交互走向人人交互,甚至是超越人人交互,这个过程确实不只是识别准确率提升的问题。
远场和混合语言是“拦路虎”
在语音识别的具体应用场景中,我们总是能够发现一些有共性且突出的识别障碍,比如远场声音的处理以及混合语言的处理。
远场语音识别常见的场景比如会议室、车载场景、智能家居等,这些场景中会出现较为明显的“鸡尾酒会问题”,出现收音不理想和背景音噪声等情况。
对于远场语音识别而言,不仅要有好的语音识别算法,在硬件层面同样需要一定规格的配置。陈苇珍表示:“思必驰推出了软硬一体化的麦克风阵列解决方案,能够支持在家居环境 5 米的良好交互效果,能够支持 360 度的角度适应。线性阵列方面,能够支持 180 度的角度适应,同时可以实现纯软件算法的降噪。”
另一个障碍是混合语言应用场景,包括中英文混合、方言等。“混合识别确实是比较难攻克的问题,主要难点实际是在声学模型上。目前,我们在声学模型的建模上采用从端到端的中英文交杂输出的方式。这个模型的好处是一个模型能够同时支持中文、英文或者是中英文交杂输出,同时能够保证它的中文性能不受损伤。” 陈苇珍讲到。
结合她的描述,这样的方式是可以复制的,从中文+英文到中文+粤语,甚至是中文+英文+粤语,能够融入的方言还包括上海话、四川话、重庆话和山东话等。
后记
让机器与人能够像人与人一样沟通,这是一种感性的需求。随着智能语音技术的不断精进,人与机器之间必将突破交互的限制,达到交流的程度。在人与人的交流过程中,智慧的人类彼此之间有着更为丰富的表达,对于机器而言人类是“善变”的。因此,让机器找到万变不离其宗的规律,是人机交互更进一步的关键所在。