随着我国人工智能发展规划的出台,以及各项关键技术的日趋成熟,物联网时代逐步成为继移动互联网时代的下一个浪潮,人机交互开启新一轮的需求革新,从鼠标、键盘、触屏的传统交互向语音交互演进,社会正在飞速进入智能语音交互时代。
以“语音+内容+智能”为切入点,打造自主设计、自主整合、自主运营的一站式语音交互共享平台,构建可运营、能变现的语音交互生态,赋能多形态终端产品,打造能听会说的人机交互体验,是未来智慧家庭发展的大趋势,也是中国移动智慧家庭运营中心推进数字家庭生态建设的重点方向。
1、语音交互是智慧家庭生态布局的关键入口
1.1 人机交互需求不断革新
伴随着交互场景的拓展,人们逐渐对交互自由度提出了更大需求,语音交互越来越贴近人类的本能表达。语音交互凭借其输入速度快、场景限制少、技术链条发展成熟等优势,成为智能时代的理想交互途径,并逐步向交互智能、终端多态、服务泛在的方向发展。
1.2 家庭场景服务更加智能
语音交互是将人工智能技术底层产业化的关键,语音助手连接多形态终端和广泛业务,可提供内容服务、互联网服务,以及场景化智能家居控制等服务,为家庭用户提供互动娱乐、互动教育、家庭健康、家庭安防等新型产品体验,其中智能音箱成为首款爆发单品,并逐步向更多产品形态延伸。
2、核心技术攻关提升体验
智能语音交互主要涉及语音识别、语义理解和语音合成等技术。语音识别技术能将语音流转换为文本,语义理解技术可分析语句的含义、剖析用户意图,语音合成技术将解析结果以语音的方式反馈给用户,从而实现与用户的智能语音交互。
2.1 语音识别——听得清
智能语音交互平台现采用基于 Transformer 算法的端到端模型,具备识别速度快、识别准确率高的特性。该模型采用基于上下文理解的自注意力机制,提升了语义特征提取能力,解决了传统模型中声学模型和语言模型无法联合优化的问题,并且该算法能更好地利用先进硬件实现并行计算,从而提升运算速度。
2.2 语义理解——听得懂
平台采用基于规则+深度+关键词匹配算法的多算法融合模型理解用户意图,规则算法对于较短文本可实现快速准确的匹配,深度学习算法可对词表无法覆盖的新词进行识别,关键词匹配算法对于词表顺序颠倒、文本长尾问题,能快速准确地识别文本意图。
2.3 语音合成——说得明
平台采用端到端合成系统,可直接输入文本或注音字符,直接输出音频波形,该系统降低了对语言学知识的要求,能批量实现几十种甚至更多语种的合成系统,并且它表现出丰富的发音风格和强大的韵律表现力,加快不同声音的合成。
3、语音 OS 锻造,赋能语音生态
3.1 语音助手,赋能多形态终端
智能语音交互平台面向多形态终端提供语音助手,采用 Hook 技术分离各个子模块,实现语音点播、通话、听书、对话等功能,协助平台构建声纹、情绪、体感等多模态识别交互和相应反馈、推荐业务,兼容主流操作系统,支持自定义接口扩展,大大缩短接入周期和研发成本,快速赋能生态硬件及应用的语音交互能力。
3.2 语音插件,赋能海量应用
平台面向海量应用提供语音交互插件,制定标准开放协议,基于 IPC 实现第三方应用与 Launcher 的跨进程通讯,当用户调用语音控制,由平台下发热词及词槽信息,Launcher 进行动态匹配并下发至第三方应用,可进行直播、点播、播控等,从而实现所见即所得。
4、整套场景封装,提供系统解决方案
4.1 全屋智能
基于智能语音交互能力和 Andlink 智能家居云平台,提供智能音箱、智能面板、智能照明、智能开关等一体化全屋智能解决方案,实现跨厂商设备的接入和语音控制,可与智能门禁、摄像头等结合,实现家庭安防组合等细分场景。
4.2 AI 客厅
打造智慧屏,通过语音遥控器、智能音箱与智能电视结合的方式,实现电视播控推荐,将语音能力赋能教育、电商、音乐、游戏、健康等大屏应用,发挥轻量级语音技能,实现一说即得的用户体验。
4.3 智能对话服务
提供融合语义推导与语义匹配的对话理解技术,预置涵盖音视频娱乐、设备控制、生活服务等领域的对话能力及词典,高效定制对话能力,在智能助手、在线客服、语音家教等领域可广泛应用。
5、结束语
智能语音交互系统攻关语音识别、语义理解、语音合成等技术,快速赋能多形态终端,应用于 “能听会说”、“能理解会思考”的 AI 交互体验,实现从概念、技术到商业产品、功能应用的跨越,形成一个以语音交互技术为核心的全新应用生态链,促进人工智能产业的迅猛发展。
在 5G 快速发展的背景下,高带宽和低时延特性促使智能语音交互技术不断攻克新的难题,开启新的篇章。在“理解”层面,重点打造“支持打断和智能纠正”的认知型对话引擎,实现自然交互的本质要求;在“应用”层面,语音交互内容技能生态将渗透各个领域,并进行场景化的封装,真正实现海量服务“开口即得”的交互体验;在“接入”层面,语音助手持续扩大枢纽作用,赋能更多形态终端和交互应用规模起量,实现万物均能说话;在“沉浸式”层面,将融合语音识别、人脸识别、表情分析、唇动状态、眼球跟踪、手势识别、触觉监控等智能人机交互手段,完善“端 - 端”、“端 - 云 - 端”的交互协议,打造沉浸式多模态互动体验。
当人机交互越来越贴近自然表达,中国移动智慧家庭运营中心将持续深化智能语音生态体系建设,引领未来美好生活。