在 AI 横行的当下,没有什么高科技能比 AI 更能激起广大用户内心的好奇,很多创业公司都在拿 AI 当噱头,几乎所有传统公司都竭尽全力向 AI 靠近。于是去年智能音箱火了,天猫精灵、小爱音箱、亚马逊的 Echo 纷纷走入我们的生活,语音控制确实比硬件控制更加便捷,有些设备厂商甚至打出一个口号“能动动嘴解决的事情就不让用户动手”。
在智能语音处理领域,思必驰以算法见长。从 2013 年开始,思必驰专注人性化的自然语言交互方案,在 2017 年基于语音技术积淀推出了 DUI 开放平台,开启全链路对话定制;2018 年,思必驰挤身中国 AI 国际队,14 篇论文入选 ICASSP,并发布了会话精灵。从应用市场来看,思必驰 CEO 高始兴向与非网记者介绍,“我们打通了全链路,实现了规模化定制,终端设备激活 8000 多万台,开发者超过 17000 人,打通了 16 葛智能家居平台。在车联网后装市场、智能音箱、儿童平板、故事机,以及知识机器人等关键领域市场占有率位居第一,在汽车前装、电视、白电、智能客服等重点领域增速第一。”
思必驰联合创始人、首席科学家俞凯
独行者快,众行者远,思必驰选择联手强者打造 AI 芯片
思必驰造芯是经过了深思熟虑之后作出的决定,而且选择适合自己的路,用思必驰联合创始人、首席科学家俞凯的话说就是“独行者快,众行者远”,思必驰选择与中芯国际旗下的中芯聚源合资成立深聪智能公司,从 2017 年初开始酝酿,2018 年 2 月开始定制芯片,2018 年 8 月份实现流片,2018 年 11 月进行验证。
深聪智能 CTO 朱澄宇介绍 TH1520 是一款聚焦于语音应用场景下的 AI 专用芯片,主要面向智能家居、智能终端、车载、手机、可穿戴设备等各类终端设备。解决方案包含算法+芯片,具有完整语音交互功能,能实现语音处理、语音识别、语音播报等功能,支持离线语音交互。
他强调,“TH1520 进行了算法硬件优化,基于双 DSP 架构,内部集成 codec 编解码器以及大容量的内置存储单元,同时,TH1520 采用了 AI 指令集扩展和算法硬件加速的方式,使其相较于传统通用芯片具有 10X 以上的效率提升。TH1520 在架构上具有算力及存储资源的灵活性,支持未来算法的升级和扩展。”
TH1520 兼具低功耗及实用性,采用多级唤醒模式,内置低功耗 IP,使其在 always-on 监听阶段的功耗低至毫瓦级,典型工作场景功耗仅需几十毫瓦,极端场景峰值功耗不超过百毫瓦。该芯片支持单麦、双麦、线性 4 麦、环形 4 麦、环形 6 麦等全系列麦克风阵列,同时支持 USB/SPI/UART/I2S/I2C/GPIO 等应用接口和多种格式的参考音,能在各类 IOT 产品中灵活部署应用。
语音算法是占用内存的大户,通过软硬融合思必驰知道如何优化,经过团队的交流,成功将内存放到了片内,片内的内存功耗比片外内存功耗小两个数量级,对降低功耗起到决定性作用。
在发布会现场,朱澄宇并没有介绍芯片的主频以及 GOP 数量,他的解释是,一是芯片在调试,在正式量产会公布;第二,我们提供的是“芯片+算法”的解决方案,给用户提供良好的体验,给开发者带来最大的放便是产品的最大亮点。
明知造芯难,为何偏要倾力造?
芯片从业者都明白,芯片是大坑,不是有豪言壮语就能做成,思必驰却在这个时候发布了其 AI 芯片。他们为什么要冒着巨大的风险从算法跨越到硬件?是因为国内的造芯热潮,还是自身的需要?思必驰 CTO、深聪智能 CEO 周伟达分享了思必驰的造芯之路。
人工智能交互技术对芯片的要求很高,第一是计算量,第二是内存,现在芯片的计算能力和存储空间不能直接提供给消费者来使用,深度学习最早应用于神经网络首先是在 PC 上实现,在客户端使用先要进行量化,可以量化到定点的 32 位、16 位、8 位,思必驰目前在客户端的所有定点都是到 8 位,可能会定位到 4 位、2 位、1bit。神经网络的基础模型不是类似于冯诺依曼的 CPU 架构,传递的是神经冲动,不是浮点数据,要真正做到类人脑运算,需要考虑高能效、低功耗的人工智能芯片是否能做到 1bit 运算,到最后的运算就不需要存储了,而是需要数字逻辑的与非异或,这样的技术在思必驰的 PC 仿真中已经验证了,思必驰的技术未来有希望用到更多终端上。但是也发现了问题:现在的 CPU 以 1byte 为单位,思必驰算法在 CPU、DSP 上没有优势。于是开始考虑从哪里开始做?
思必驰做芯片第一是因为神经网络发展的需求,第二是更多的市场需求,从成立之初到现在,我们已经对接赋能了上千万套设备,对接了 ARM、DSP、MIPS、MCU 的芯片,存储空间从几兆到几 G,因此非常清楚客户的需求和瓶颈。我们如何把 AI 算法提供给客户,这让我们看到有大量的市场需求,因此,从技术发展和市场需求来看,做芯片是一条必经之路。
思必驰从 2016 年开始筹划做面向深度学习的神经网络芯片,我们在本质上是软件公司,我们也在思考自己能不能做硬件?因此,我们决定和行业专家一起合作研发芯片。从 2016 年到 2017 年一直在寻找合作伙伴,从芯片行业的 IP 供应商、芯片制造商、芯片生产商、以及做编译器、操作系统的公司中筛选,整个过程中发现三个困难:第一,人工智能算法在未来的 5-10 年会不断发展,不断进化、完善,如何做芯片?芯片公司说,你可以告诉我你需要多少算力,多少带宽,多少内存,剩下的问题交给我来做。但是我们限制,这款芯片是否能达到毫瓦级?在未来物联网应用中达到百微瓦甚至十微瓦?大部分公司无法做。CPU 最小做到几百毫瓦甚至 1W,这需要我们和芯片设计公司深度融合来进行合作,需要我们公司开放算法,需要芯片公司重新架构 CPU 计算单元,这一步很难迈出;第二,我们对接了很多设备了解了需求,把这些需求提交给芯片公司,他们未必认可。第三,未来数据存在很大的安全隐患,消费者存在信息泄漏风险,我们想研发芯片做三层数据安全的保护:第一层加入芯片密码,只有验证了芯片密码,应用才能启动;第二层用户加入声纹,才能启动芯片进行录音,传输到云端;第三层,随着芯片计算能力增加,可以在本地做通用的语音的识别,尽可能少在云端传数据,通过研发芯片达到保护个人信息安全。最后,思必驰决定做芯片,而且要软硬结合做好 AI 芯片。
软硬结合,刚柔并济
软硬结合的第一步是把算法变成汇编语言,然后在软件开发环境下进行分析,分析结果发现大有可为。比如,算法中的四舍五入,用汇编来看,需要判断、移位、复制等十个步骤,芯片工程师觉得只要一步指令就可以完成,于是算法工程师和硬件工程师一起定制了一套指令,将效率提高了 10 倍。软硬件工程师一起交流,碰撞出很多火花,这是我们在较短时间内大幅度提升芯片性能的一个方法,第一步通过算法的工程实现、芯片的配置架构和芯片的物理进行初步融合,就达到了全系列麦克风阵列、AI 关键字和指令的识别,以及低功耗唤醒的目标。
第二步,将语音算法和基础 IP 再融合,在做语音算法时考虑到后面的流程,在最底层考虑到前面,进行深层次的融合,可以把芯片的能力和能效再提升一个数量级,满足下一代芯片的需求,本地的语音识别、本地的语义识别、安全特征、声纹特征。第二代芯片的预研发已经开始。
第三,人机交互的最高境界是拟人化交流,不光需要语音,还需要视觉、运动、味觉、触觉,需要更深层次的多模态整合算法,与存储工艺封装等融合和优化,会用到新的存储技术做存储计算。
将来软硬结合发展趋势是通过算法和实现,最终生产深度交流,不断提高芯片的性能,在摩尔定律走到尽头的背景下,软硬结合大有可为,人工智能软硬结合是芯片性能继续提升的一个方向。
AI 时代是一个软件定义硬件的时代
软件是以天和周为单位进行版本更新,而半导体芯片从产品设计到流片、验证、封装、测试,一般周期是一年半到两年。清华大学魏少军教授说过,即将到来的 AI 时代是一个软件定义硬件的时代,是一个算法定义芯片的时代。深聪智能在思必驰强力算法的支持下,优势就是充分做到“软件+硬件”的融合以及深度优化,这已经反映出软件定义芯片的时代已经到来。深聪智能的成立满足了从算法到模块,到平台到生态的迁移,思必驰十年的技术积累,已经从一个算法产品公司迈向一个平台、一个系统、一个生态,打通了云和端,就是欠缺了芯片。
AI+IoT 是下一个十年是所有半导体公司都关注的点。通用芯片开始是为了满足最大的出货量,不管是高通、联发科还是海思、展讯,不管瞄准的是手机、TV,还是盒子、白电,他们想要做到的是一款芯片打遍全世界,英特尔控制了 PC 时代,彼此都有标准化;在移动互联网时代,即使是安卓、ARM、高通、联发科、海思等,它们对硬件的要求,对软件的依附都已经被量化,在 AI 时代,专用 IC 才能满足物联网的碎片化需求,借用专用芯片到定制的架构,我们只是将算法和算法模型从通用型芯片移植到专用芯片上,我们强调功耗和专用芯片是为了针对特定的场景、特定的算法、特定的模型量身定做,而不是通用芯片的“削足适履”。
接下来是从专用芯片迈向专用架构,目前的 CPU、FPGA、GPU 并不符合未来神经网络深度学习的需求,我们从专用芯片到专用架构,就可以反馈回去修改模型,AI 市场是要透过使用者来定义产品,再由把需求反馈给算法,靠算法实现 。
通用芯片无法和数据产生连接,无法和市场产生连接,无法和算法产生连接,算法是灵魂,芯片是框架,没有灵魂的框架是产生不了价值的,必须采用专用芯片才能发挥算法的潜力。芯片需要老司机,深聪智能拥有算法大牛和芯片设计老鸟,软件和算法的融合才能作出优秀的芯片。思必驰面向的是物联网,不做“me too”的产品,而是和众多的合作伙伴一起共赢,迎接 AI 时代的来临。
与非网原创内容,未经允许,不得转载!