“语音识别已经有几十年的历史了,但是结合人工智能中的神经网络与深度学习,为语音识别提供了可能。未来的语音识别可以直接与人对话,理解人的语言,能通过声音来对智能产品进行复杂交互,简化人机交互,继眼睛(显示屏)、手(触摸屏)后,耳朵&嘴巴将成为下一代人机交互的主要形式。人机对话是革命性的东西,从简单家庭使用:开电视、切换频道大小声音、设定冷气及任何家电的控制都可以做到,语音可以做身份识别,语音助手可以提供私人定制服务。甚至智能语音可以取代人类大部分服务业与窗口行业,如一个餐馆可以节省 90% 的人力,点餐加工送餐收款全部由人工智能完成。” 在智能语音被视作人工智能突破口的当下,世平集团资深技术总监林建和认为智能语音可创造无限可能。
世平集团资深技术总监林建和
除了智能音箱领域,语音识别与交互还可应用于以下领域:
- 能家电的开关与操作(例如:WiFi 音箱、电视、灯,冰箱、电饭锅、空气净化器)
- 家居管理(例如,智能照明、智能窗帘、智能床罩)
- 机器人(陪伴机器人、扫地机器人)
- 手机(例如拨电话给谁、传简讯给谁、发 e-mail 给谁、、拨放音乐、开启 APP 等等)
- 汽车信息娱乐系统(例如:导航, 简易功能的控制,播音乐、音量调整、拨打紧急电话、查询路况与询问路径周边设施等等
- 人类服务业与窗口行业
林建和先生认为:智能语音在故事机 /WiFi 音箱、车载语音识别,家电等会先落地。
理由在于:
语音识别距离较近,识别效果会比较好,且相较于主流的触控型人机界面,语音交互具有先天优势,可真切的满足绝大多数人的互动需求。
在被看好的高端智能音箱、机器人(人机交互)、家庭医疗、智能购物等领域,仍需时日才可落地。主要由于这些领域对语音技术及实现效果要求较高,对于一定范围的失误都难以容忍,因此还有待技术的革新。另外,值得一提的是,用户习惯的养成非一朝一夕,因此从用户培养角度而言也需时日。
为智能语音发烧的硬件方案
既然智能语音可在这么多领域大显身手,那么从硬件角度而言,怎样的芯片才可称之为专为智能语音而生呢?
“瑞芯微 RK3229、锐迪科 RDA5981、联发科 MT8516、全志 R16、乐鑫 ESP32 等都可称为专为智能语音而生,这些方案多是支持 WiFi 接入功能(还可能带有 BLE 功能)、内置 Codec、支持多通道麦克风阵列接口与语音识别算法,并接入主流语义云平台(科大讯飞、亚马逊 Alexa 等)。”林建和先生解释到。
世平集团智能语音解决方案包括:
a. RK3229 多麦克风解决方案和 RK3036 双麦解决方案,麦克风阵列算法和语义平台已经连接 科大讯飞、思必驰、云知声等平台,并支持 Amazon Alexa。
b. RDA :RDA5981 + RDA5856,连接百度度秘平台,主打低成本语音识别方案。
c. MXCHIP VBS6100, 内置思必驰语音技术方案,搭配 MiCO 操作系统,语音交互直达云端。
d. NXP i.MX7,连接 Amazon Alexa,Google Assistant,完美支持 Android Things。
e. TI TDA、Jacinto。
世平现在主要关注智能音箱与智慧家电等领域。林建和先生表示:当下,智能语音方案实现的功能与性能还有待改善。
理想的应用和产品定义是:可以把功耗做低,语音识别效果做好(更高识别率和对方言 / 口音的识别),实时性要高,体验更方便等。这有待于各原厂继续推出更有竞争力的产品,语音算法公司进一步加强算法技术,以提高人工智能水平。智能语音的革新也需要大型平台带头推动软硬件的结合,以提高接入数量,形成规模化的生态系统,给到用户带来更好的体验等。
智能语音布局:从整合资源到完善生态
林建和先生向与非网记者介绍了世平在智能语音方面的布局情况:
硬件方面
世平正在引入 RDA5981 语音识别方案,该方案搭载了 DuerOS(度秘)对话式人工智能操作系统,可以赋予轻量级设备对话能力。该方案还支持 ARM mbed 内核及安全网络协议栈,实现了与云端的安全连接,降低了设备商应用开发门槛。
另外,还将结合各芯片原厂资源,进行应用整合,以提升产品边缘计算能力。
生态方面
世平将与平台合作伙伴比如亚马逊、Apple、家电厂商、阿里巴巴、华为、电信运营商等平台 / 产品厂商做深度对接。
细究智能语音软肋,未来之路在哪?
正是由于世平看到智能语音落地过程中出现的问题,才有了以上布局与愿景。那么细究其技术痛点,林建和先生认为所有以下五点:
低功耗处理:当下的自动语音识别需要较高功耗才可实现,下一代产品需要做的改善是搭一个声音检测电路,只在检查到人声时才打开更复杂的语音识别电路。才用此方案,可将功耗降低 90%以上,做到供电更持久。
识别率:由于方言与口音的原因,语音识别无法做到准确识别,还有待于语音识别算法公司进行继续优化。
语音识别的实时性:用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求,这是一大难点。
体积和价格的要求:在要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、价钱低等特点,这是需要充分平衡的因素。
互联互通:在智慧家庭应用中,场景单一联动不足,产品应用偏向语音助理专属装置,语音处理服务尚未渗透到其他可联网设备中,互联互通存瓶颈。突破点是建立生态圈,开放语音接入服务,提供语音接入基础模块。
智能音箱被誉为智能家居的入口,现在互联网厂商、运营商、家电厂商等都在积极布局,世平也是其中一员。林建和先生表示,世平是致力于元件通路商和系统方案整合者,我们希望能努力沟通上下游,一起完成该领域有竞争力的方案,促进整个领域的发展。我们现在是上与互联网公司沟通以接入云平台,下与各个原厂沟通以整合他们的方案并提供给客户,希望大家都可以加入这个生态中,把智能语音做强做大。
与非网原创内容,未经许可,不得转载!