最近科技圈刮起一股收购风,前面博通收购高通还在如火如荼的进行,这周苹果就宣布收购音乐识别软件 Shazam。Shazam 这个软件,通过手机麦克风收录音频片段,能够识别音乐、电影、电视节目甚至是广告。那么苹果公司整合这项技术做什么?很大可能是为了其人工智能助理软件 Siri。
Siri 使用自然语言处理技术,是 AI 技术的一大体系,而随着近年定义和产业分工越发精细,语言识别渐渐分成了语音识别和语义识别两个支系。语音和语义虽只有一字之差,却有很大的不同。
打个简单的比方,语音识别相当于是人的耳朵,而语义识别则是大脑,语音识别帮助机器获取和输出信息,那么语义识别则是对这些信息进行识别加工。
在这里,与非网小编举个例子来帮助大家更好的理解上面的话:
爸爸没法举起他的儿子,因为他很重。
问:谁重?
爸爸没法举起他的儿子,因为他很虚弱。
问:谁虚弱?
可以看到,这两个句子结构完全一致,后面的“他”指的到底是爸爸还是爸爸的儿子?这对于我们来说轻而易举,因为我们有能清楚的通过我们积累的知识知道:爸爸举不起儿子,要么儿子太重,爸爸举不起;要么儿子不重,但是爸爸力气小,比较虚弱,因此举不起儿子。
但是对于一个只会语音识别的机器来说,它不会去思考句子中的“他”到底指的儿子还是爸爸,事实上,它也“想不清楚”。但是通过语义识别,机器会对听到的信息进行加工理解,从而给出正确的答案。
与语音识别相比,显然语义识别显然要更深一个层次,用到的技术也更为复杂。
本期《趣科技》,与非网小编就给大家介绍一下人工智能中,自然语言识别这一重要支系。
语音识别发展史
语音是最自然的交流方式,自从 1877 年爱迪生发明了留声机,人们就开始了与机器的交谈,但是主要还是与人交流,而非机器本身。
1950 年,计算机科学之父阿兰·图灵在《Mind》杂志上发表了题为《计算的机器和智能》的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了,这就是后来鼎鼎有名的人工智能图灵测试。
到 20 世纪 80 年代,语音识别技术能够将口语转化为文本。
2001 年,计算机语音识别达到了 80%的准确度。从那时起,我们就可以提取口语语言的含义并作出回应。然而,多数情况下,语音技术仍然不能像键盘输入那样带给我们足够好的交流体验。
近几年来,语音识别又取得了巨大的技术进步。科大讯飞董事长刘庆峰在一次演讲中,在演讲的同时使用着最新的智能语音识别技术——可以让他演讲的内容实时以中英文双字幕的形式呈现在大屏幕上,反应迅速、几乎没错。识别精确度超过 95%。随着这项技术的进步,语音优先的基础设施变得越来越重要,亚马逊、苹果、谷歌、微软和百度都迅速部署了声音优先软件、软件构建快和平台。
图|语音发展史
语音识别产品应用
语音识别作为打造良好交互体验的重要前提,今年的发展可谓是持续火爆。在智能音箱市场,首先想到的就是 Amazon 的 Echo。Echo 作为将自然语音转化为在线指令的设备,其效率之高无容置疑,并且可保持在线的自然环境中的自然语言识别。
Echo 的核心技术在于它集成的智能语音助手 Alexa。在 2015 年 6 月 25 日亚马逊曾宣布,将开放智能语音硬件 Echo 的内置 AI 助手 Alexa 的语音技术,供第三方开发者免费使用。由此可见,亚马逊向用户呈现出来的不仅仅是技术上的领先,还有真正落地的产品,以及良好的产品体验。
与此同时,国内语音识别领域也开始争夺大战。以科大讯飞听见系列产品为例,自 2015 年发布以来,总用户突破 1000 万,应用于 30 余个行业。目前,已经形成了以听见智能会议系统、讯(询)问笔录系统、听见转写网站、录音宝 APP、听见智能会议服务等以智能语音转写技术为核心的产品和服务体系。
语音识别技术瓶颈
从下图可以看出,语音识别的误字率呈明显的下降趋势。
然而,即使达到 100%的准确率,仅限于输入法功用的语音识别也无人机互动的意义,它还算不得真正的人工智能。
我们所期望的语音识别实质上是人机交互,大致上可以理解为人与机器之间无障碍沟通。要达到这种期望,光靠误字率很低甚至为零的语音识别可能并不能做到,那么就需要有“大脑”的语义识别了,相对于语音识别,它可以通过人们的语气、谈话的内容等等判断用户说的话到底是什么意思,而不是简单的一字不落的识别出所说的内容。比如说:小沈阳长得可真帅!在不同的语境下却有着截然相反的意思。
从“傻白甜”的语音识别到“带脑子”的语义识别,还有很长的路要走。
口音和噪声
语音识别中最明显的一个缺陷就是对口音和背景噪声的处理。最直接的原因是大部分的训练数据都是高信噪比、美式口音的英语。
上图中可以看到有口音的情况下,人的错误率低于模型;从高信噪比到低信噪比,人与模型之间的错误率差距急剧扩大。
语义错误
实际上语音识别系统的目标并不是误字率。人们更关心的是语义错误率。
举个语义错误的例子,比如某人说“let’s meet up Tuesday”,但语音识别预测为“let’s meet up today”。我们也可能在单词错误的情况下保持语义正确,比如语音识别器漏掉了“up”而预测为“let’s meet Tuesday”,这样话语的语义是不变的。
将模型与人工进行比较时的重点是查找错误的本质,而不仅仅是将误字率作为一个决定性的数字。
微软研究人员将他们的人工级语音识别器的错误与人类进行过比较。他们发现的一个差异是该模型比人更频繁地混淆“uh”和“uh huh”。而这两条术语的语义大不相同:“uh”只是个填充词,而“uh huh”是一个反向确认。这个模型和人出现了许多相同类型的错误。
单通道和多人会话
一个好的会话语音识别器必须能够根据谁在说话对音频进行划分,还应该能弄清重叠的会话(声源分离)来理解音频。
一个人在一个有多个人说话的环境中的时候,能够很容易的分辨出自己要与某人说话,并且能够在同时与多个人交谈。很明显,目前的语音识别器并不能做到这一点。当多个人对着麦克风讲话时,它可能直接就“懵”了。
上下文理解
实际生活中我们会使用许多其他的线索来辅助理解别人在说什么。
列举几个人类使用上下文而语音识别器没有的情况:
历史会话和讨论过的话题;
说话人的视觉暗示,包括面部表情和嘴唇动作;
关于会话者的背景。
可以看到虽然目前语音识别技术的误字率已经低于 5%,但想从语音识别转变成真正的语义识别,是仍然面临着很多挑战。
语音识别到真正的语义识别
语音识别和语义识别合起来的语言识别虽然为人工智能的一大支系,但是比起语音识别,显然语义识别要更加智能。在这里,与非网小编先给大家梳理一下人工智能,机器学习,深度学习,神经网络这些术语之间的关系,大家或许就更加能理解从语音识别到真正的语义识别还有哪些路要走(目前市场上有很多做语义识别的公司,但是跟人类相比还存在一定的距离。)?
人工智能(AI)是一个大的概念,它是机器学习的父类。
除学习之外的人工智能可以归纳成了“逻辑 / 算法编程”,也就是通过编程将人类所知的知识和逻辑告诉机器,从而借助机器的高速计算和海量存储等能力实现一些人类才能做的“弱智能”工作,像上世纪深蓝计算机,将国际象棋中所有可能的结果都通过预先编好的程序计算出来从而选择最佳的下法(穷举法)。从程序的实现上来说恐怕就是无数的 if…else…吧。
而另一类就是基于数据的自我学习,把大量的数据告诉机器由机器自己去分析这些数据从而总结得出某种规律 / 逻辑,然后利用这种逻辑来处理新的数据。
毫无疑问,学习是人工智能中最为火热和最有前途的方向,让人去“学习”那么复杂的逻辑来告诉机器怎么做还不如让机器自己来学习呢,毕竟人都是懒的嘛,而“懒”就是人类进步的动力!
学习是不断的训练过程,其模型是在连续的优化调整中,随着训练数据越多其模型越准确,但是人类的学习不仅仅是一个连续学习过程,还有一种跳跃式学习,也就是常说的“顿悟”,这点是机器学习目前所没有的。
也就是说,要从语音识别成功转变成真正意义上的语义识别,首先要获得大量的数据(比如说普通话,上海方言等),用过这些数据不断训练,来提高识别的准确率。
图|语义识别市场
虽说实现真正的语义识别不容易,但是就目前的市场分析来看,语义识别已经渗透到了我们的生活之中,作为人工智能的基础性技术之一,随着技术的不断成熟,语义识别将不断地改变更多的传统行业。
图|人工智能各分支占比
在人工智能的整个领域里,自然语言处理无论是在创业热度 / 获投数量还是获投金额都处于细分领域的前三名。据有关数据分析,预计到 2024 年,市场规模可达 110 亿美元。并且在这个领域还没有出现巨头,这块蛋糕还给创业者留有大量的余地。可以说语音识别(在这里指的整个语言识别)未来的市场发展十分有看头。
想象一下,当语音识别发展到一定程度,我们坐在电视机前就可以语音遥控想看的节目。假如你要看英剧《神探夏洛克》,经常会被人叫成《神探夏洛特》(因为夏洛特更顺嘴或者更普遍),这时候如果不做语义理解,可能你搜出来的名字就是《夏洛特烦恼》,因为它频度也很高。
图|语义识别带来的人机交互
专做语义识别的三角兽公司 CTO 亓超对以上现象如此解释:当你没有办法记住片子完整名字时,语义识别需要给你做纠正,做更合适处理。其实用户在看电视产生很大需求,当用户不知道要看什么,需要机器帮忙做推荐和引导,而这个过程中精准化程度、和人性化程度取决于智能化程度。
当语音识别发展到一定的程度,语义识别或将成为新的主流。
更多有关人工智能文章,欢迎点击《人工智能》继续阅读!
与非网原创内容,未经许可,不得转载!