加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入

logo

logo

有事离开?不用担心

扫一扫继续用手机看

微信扫码
不再提醒
  • 点赞
  • 评论
  • 分享
  • 视讯介绍
    • “97%或者 99%只是实验室数据”
    • 远场和混合语言是“拦路虎”
    • 后记
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

智能语音的蜕变,不是一场数字游戏

2020/07/07
305
阅读需 5 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

“芝麻开门。”
“芝麻关门。”
“我要去五楼。”

这几条充满童趣的语句,实际上是控制电梯的语音指令。疫情当前,电梯是非常高风险的区域,尤其是手指碰触电梯按键的时候。针对这一场景,思必驰推出了电梯语音控制模块。“在后装的电梯上也可以进行安装,而且安装起来非常简单方便。” 思必驰 IoT 商务总经理陈苇珍在演示过程中表示。

思必驰 IoT 商务总经理陈苇珍

“97%或者 99%只是实验室数据”

电梯控制是一个典型的语音识别应用场景,技术的进步正在改变人机交互的方式和结果。

语音识别是人机交互中的重要技术,所涉及的领域包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等,近些年语音识别技术取得显著进步,开始从实验室走向市场。

人工智能和机器学习领域权威学者吴恩达此前表示,当语音识别准确率达到 99%时将改变人机交互方式。陈苇珍认为:“不管 97%还是 99%,如果单纯强调这种实验室的语音识别的数据,它的价值会相对有限,需要结合到具体的场景来看,比如说办公、车载、家居、金融等领域的应用场景,再结合大数据的运算和认知计算,才能够真正地形成一个好的交互体验。”

她强调:“思必驰更关注的是完整的人机语音交互技术,除了语音控制之外,更多的是关注交互能力和对话能力。我们的语音识别包括连续的云端识别,还有实时识别、抗噪识别、远场识别以及大词汇识别和本地识别。”

关注思必驰的人都知道他们还有一个“语音识别++”。“除了提供文本信息识别之外,语音识别++也会有情绪识别、年龄识别、声纹识别这些信息。” 陈苇珍介绍说:“我们的情绪识别已经能够去支持覆盖主流的情绪:愤怒、快乐、喜悦等,可以针对性地做出拟人化反映。同时这种分类的识别计算是为了把我们的识别信息进行多样化,辅助生成用户画像。”

让机器能够感受人的喜怒哀乐,从人机交互走向人人交互,甚至是超越人人交互,这个过程确实不只是识别准确率提升的问题。

远场和混合语言是“拦路虎”

在语音识别的具体应用场景中,我们总是能够发现一些有共性且突出的识别障碍,比如远场声音的处理以及混合语言的处理。

远场语音识别常见的场景比如会议室、车载场景、智能家居等,这些场景中会出现较为明显的“鸡尾酒会问题”,出现收音不理想和背景音噪声等情况。

对于远场语音识别而言,不仅要有好的语音识别算法,在硬件层面同样需要一定规格的配置。陈苇珍表示:“思必驰推出了软硬一体化的麦克风阵列解决方案,能够支持在家居环境 5 米的良好交互效果,能够支持 360 度的角度适应。线性阵列方面,能够支持 180 度的角度适应,同时可以实现纯软件算法的降噪。”

另一个障碍是混合语言应用场景,包括中英文混合、方言等。“混合识别确实是比较难攻克的问题,主要难点实际是在声学模型上。目前,我们在声学模型的建模上采用从端到端的中英文交杂输出的方式。这个模型的好处是一个模型能够同时支持中文、英文或者是中英文交杂输出,同时能够保证它的中文性能不受损伤。” 陈苇珍讲到。

结合她的描述,这样的方式是可以复制的,从中文+英文到中文+粤语,甚至是中文+英文+粤语,能够融入的方言还包括上海话、四川话、重庆话和山东话等。

后记

让机器与人能够像人与人一样沟通,这是一种感性的需求。随着智能语音技术的不断精进,人与机器之间必将突破交互的限制,达到交流的程度。在人与人的交流过程中,智慧的人类彼此之间有着更为丰富的表达,对于机器而言人类是“善变”的。因此,让机器找到万变不离其宗的规律,是人机交互更进一步的关键所在。
 

思必驰

思必驰

思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。并拥有中英文综合语音技术。思必驰语音识别、声纹识别、口语对话系统等技术曾经多次在美国国家标准局、国际研究机构评测中夺得冠军。

思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。并拥有中英文综合语音技术。思必驰语音识别、声纹识别、口语对话系统等技术曾经多次在美国国家标准局、国际研究机构评测中夺得冠军。收起

查看更多

相关推荐

电子产业图谱

与非网副主编,网名:吴生,电子信息工程专业出身。在知识理论的探寻之路深耕躬行,力求用客观公正的数据给出产品、技术和产业最精准的描述。