飞行汽车、机器人管家……在一些未来畅想中,今天的人们已经拥有了各式“智慧”产品。如果运气不好的话,高智能机器人大行其道,开始起来反抗人类,再现《机械公敌》剧情。虽然这些想象并未成真,但在当下,人工智能(AI)技术已经走进了人们的世界。比如,每当给Alexa智能音箱指令时,机器学习技术都会努力弄清话语内容,并试图做出最佳判断。每次Netflix或亚马逊推荐了“下一部电影”或“下一次购货商品”时,均是基于复杂机器学习算法而定向推荐,让这些推荐远比之前的促销看上去诱人。尽管自动驾驶汽车尚未普及,但人们纷纷意识到自主导航的潜力和趋势。
人工智能技术大有前途——它让机器可以根据周围的世界做出决策,像人一样处理信息,甚至处理方式还会优于人类。但是,如果细想上述事例,便会发现目前的很多人工智能,只能通过“大型机器”来实现——这些机器发热量高、拥有线路功耗、体积巨大,而且昂贵。像Alexa和Netflix依靠云端的大型、高耗电服务器来分析用户的意图。而自动驾驶汽车则要依赖电池供电,考虑到电池必须能够驱动车轮和转向,因此需要提供很高的容量,与非常昂贵的人工智能决策相比,同样也要消耗大量能源。
目前,人工智能技术稳步发展,但是人工智能的“小型化,边缘化”却明显滞后。那些由小型电池供电或存在成本和尺寸限制的设备无法实现机器的视觉和听觉分析功能。目前,这些小型机器只能利用简单的人工智能技术:也许只是听一个关键词,或者分析低维信号,比如用光容积描记术(PPG)来测量心率。
如果小型机器有视觉和听觉功能会怎么样?
事实上,小型设备一旦能够看到和听到,是否有实用价值呢?思考一下,像门铃摄像头这样的小产品需要使用自动驾驶或自然语言处理等高阶人工智能技术吗?似乎也没有必要。因此可以考虑采用不太复杂、处理强度不大的小型化的、边缘的人工智能计算,比如词汇识别、语音识别和图像分析。
- 普通的门铃摄像头和消费类安保摄像头经常会被一些无关紧要的事件触发,比如刮风引起的植物摆动、云彩引起的剧烈光线变化、甚至是狗或猫在摄像头前跑动。这些事件可能会导致误触发,从而需要房主去操作忽视并清除此类触发事件。尤其糟糕的是,如果房主正好在世界其它地方旅行,而家里的摄像头却对日出、云彩、日落造成的光线变化发出了误警报会影响他们睡眠和旅行。但一个智能摄像头却能够基于更具体的事件进行触发,例如在所监控的画面中出现了一个人。
- 门锁或其它出入口可使用面部识别,甚至是语音识别来授予人员访问权限,在某些情况下不需要钥匙或胸卡。
- 很多摄像头都希望在发生某些特定事件时才触发:例如,跟踪摄像头可能希望在画面中出现鹿时被触发,安保摄像头可能希望在画面中有人或出现开门或脚步声等噪音时被触发,而个人摄像头可能希望通过语音命令来触发。
- 虽然有很多“Hey Alexa”这样的简单解决方案,但多词汇量命令在很多应用中都非常有用。如果具备识别20个或更多单词的词汇表,就可以在工业设备、家居自动化、烹饪设备和大量其它设备中应用,以简化人机交互。
尽管这些例子只触及表层:让小型机器看到、听到和解决过去需要人为干预的问题,但实际上这是一种颠覆性思路,因为人们每天都不断发现可智能化创造的新场景。
让小机器具备视觉和听觉功能,面临哪些挑战?
既然人工智能对小型机器具有如此实用价值,为何没有被大量开发呢?答案是受限于算力。人工智能推理是神经网络模型计算的结果。可以把神经网络模型看作是大脑处理图像或声音的粗略近似形态,将其分解为非常小的片段,然后在这些小碎片组合在一起时识别出模型。现代化视觉问题的主要模型是卷积神经网络(CNN)。这类模型在图像分析方面非常出色,在音频分析方面也非常有用。问题在于,这些模型需要数百万或数十亿次的数学计算。对于传统硬件设计,这些应用在实施时却会面临一些困难抉择:
- 购置一个昂贵的高性能处理器,能在规定延迟内完成这些数学运算。不过,这些处理器通常很大,需要很多外部组件,包括散热器或类似的冷却组件。好处是,它们执行人工智能推理的速度非常快。
- 低功耗微控制器解决方案的速度太慢,无法发挥作用,而高性能处理器方法会超出成本、尺寸和电源预算,可以说上述两种方案都不够理想,难以实施。
由此可见,人们需要的是一种全新的嵌入式人工智能解决方案,尽可能减少卷积神经网络计算所需的能耗。人工智能推理需要以比传统微控制器或处理器解决方案更少的能量来执行,并且无需借助能耗高、尺寸大、成本大的外部组件(如存储器)。如果人工智能推理解决方案实际上能够消除机器视觉的能量损失,那么即便是最小的设备也能看到并识别周围世界发生的事情。
幸运的是,人们现在已经处于这场“小型机器”革命的开端。目前,ADI已经在市场上推出了相关产品,能够消除人工智能推理的能源成本,并实现电池供电的机器视觉功能。