近日一则消息让业界哗然,英特尔宣布:将结束在神经网络处理器方面的工作,将重心转向人工智能芯片,而研发 AI 芯片的核心单位就是英特尔去年重金收购的 Habana Labs。
名噪一时的 Nervana 走下神坛,Habana 在开启另一个时代。这足以证明,为了 AI 时代的胜利,英特尔再一次“壮士断腕”。
当然,这不是英特尔第一次下决绝之手,遥想当年,英特尔还是存储芯片市场的老大。
从存储芯片到CPU的“战略转折”
1985 年,面对日本厂商的低价竞争,英特尔在存储芯片市场战陷入运营危机,业界都在怀疑英特尔是否能生存下去,以“偏执狂”著称的格鲁夫和时任英特尔首席执行官摩尔有一段经典的对话。
格鲁夫问摩尔:如果我们下台,另选一名新总裁,你认为他会采取什么行动?
摩尔回答:会放弃存储芯片业务。
格鲁夫反问:那我们为什么不自己动手?
于是英特尔断然放弃了存储芯片业务,将当时还是副业的微处理器业务扶上主位,这次转型让英特尔赢得了 CPU 时代的胜利。到 1992 年,英特尔成为了全球半导体市场的霸主,而当年打败英特尔的日本企业却不见踪影,这次决策被格鲁夫称为“战略转折点”,也正是这次转折成就了英特尔后面十年的辉煌。
痛失移动处理器市场的“症结”
时间来到 2010 年,智能手机需求不断升温,以高通为首的一大堆移动处理器厂商迅速崛起,但是英特尔并没有及时作出反应。直到 2011 年,英特尔才宣布用 Atom 系列处理器进入移动芯片领域,人称“阿童木”系列,而这个寄予厚望的产品线却让英特尔败走移动处理器市场。
和其它厂商采用 Arm 架构大相径庭,英特尔的 Atom 系列坚持采用了 x86 架构,而且 Atom Z2580 和 Android 系统出现了严重的兼容性问题,给消费者留下了极差的印象。让用户不解的是,在 2013 年,当高通和联发科采用 28nm 推出了骁龙 801 和 MT6592 时,Atom Z2580 还在采用 32nm,x86 架构本来在功耗上就处于劣势,落后的工艺制程让 Atom 处理器的功耗和封装体积问题雪上加霜;到 2015 年,主流移动处理器厂商纷纷奔向 20nm、14nm,而英特尔推出的 Atom Z3580 依然坚守在了 22nm。如果是 Fabless 厂商出现这种情况我们可以理解,但是发生在拥有代工厂的英特尔身上真是让人大跌眼镜。
更让人匪夷所思的是,当时英特尔的桌面处理器已经量产了 14nm 芯片,可见英特尔在自我博弈,想要拿到移动处理器市场,也不想让 PC 产品失去优势。然而,鱼与熊掌不可兼得,即使后面英特尔散钱式补贴平板电脑市场都没能挽救 Atom 系列被移动处理器抛弃的命运。
随后不甘心的英特尔又为移动处理器市场打造了两款产品 --Broxton 和 SoFIA,Broxton 面向高端移动产品,采用全新的 Goldmont 架构、14nm 工艺制造,原计划在 2015 年中旬推出;SoFIA 面向低端移动产品,宣称是 Intel 首款整合有基带芯片的移动 SoC,在 2014 年下半年推出了搭载 3G 基带的第一代产品,原计划在 2015 年推出的带有 4G 基带的 SoC,但是这两款产品都无缘上市。
最终,在 2016 年 5 月,英特尔正式对外宣布全面取消 Broxton 和 SoFIA 两款凌动处理器产品线的开发,放弃移动芯片市场,此时英特尔在移动处理器芯片市场的投入已经超过 100 亿美金。
笔者百思不得其解:英特尔为什么死守复杂指令集(CISC)(也就是 x86 架构),而不选择更适合移动处理器市场的精简指令集(RISC)呢?直到我看到另一个故事才恍然大悟。
英特尔不是没有拥戴过精简指令集,早在格鲁夫“执政”时代,英特尔就发现 RISC 能够用较少的晶体管完成绝大多数计算任务,负责计算技术的工程师们也曾为其优越的性能欢欣鼓舞,甚至格鲁夫还亲自为 RISC 推波助澜。
当时任英特尔高层主管 Craig Kinnie 和 Dennis Carter 找到格鲁夫严厉指出:安迪,你不能这么干。放弃 CISC 上马 RISC,将断送商业史上最大的特许经营生意,而得到的是一大堆竞争对手。
最终,格鲁夫被说服了,事后他十分感慨:我们差点儿就葬送了公司,我们的技术是行业标准。这个特许经营业务价值超过百亿美元。而我却由于一个漂亮新产品的诱惑而忘记市场,差点儿就把生意白白断送掉。
这段故事或许就是英特尔坚守复杂指令集的最大原因,但是当年的成功经验在移动处理器市场并没有奏效,反而让英特尔节节败退,最后无疾而终。或许在移动处理器市场的失败也会给英特尔带来某些启示。
AI成就英伟达,英特尔棋逢对手
转眼到了 AI 时代,对处理复杂运算和并行运算的天然优势让英伟达和它的 GPU 站在了聚光灯下。虽然现在 AI 芯片已经遍地开花,创业公司不断涌现,但是 AI 芯片市场依然是英伟达的 GPU 独霸江湖,其产品在图形处理方面占有据对优势,市场占有率高达一半以上,英特尔可谓棋逢对手。
业界预测,AI 芯片市场规模在 2022 年将达到 352 亿美元。英特尔自己也预测,2024 年 AI 芯片市场规模将超过 250 亿美元。作为处理器市场的老大,英特尔自然不肯放过 AI 这块肥肉。不过此时的英特尔已经意识到,仅凭自己砸钱研发难以追赶技术的发展,于是它选择了通过收购快速扩张:
2016 年 8 月,英特尔以 4.08 亿美元的价格收购 AI 创业公司 Nervana Systems。Nervana 成立于 2014 年,其产品是神经网络芯片,产品架构设计很有特色,针对 AI 需要高性能内存的特点放弃了标准缓存系统,改用软件管理内存系统。收购 Nervana 之后,英特尔将技术进行整合推出了多款 Nervana AI 芯片,主要有 Nervana NNP-T 及 Nervana NNP-I 这两款。
2016 年,英特尔还收购了另外一家 AI 芯片公司 movidus。movidus 成立于 2006 年,花费九年时间研发了低价低功耗高性能的视觉处理器芯片——Myriad 系列 VPU,而在被英特尔收购之前,其产品就已经应用于谷歌和大疆的产品中。
2018 年,英特尔收购了 AI 初创公司 Vertex.ai。Vertex.ai 专注于开发深度学习汇编工具和相关技术。Vertex.ai 联合创始人宗 - 恩格(Choong Ng)曾表示,他们看到性能强大的 CPU 和 GPU 存在缺乏便携式、对开发者友好工具的问题,而他们则发现了利用新软件 PlaidML 引擎解决针对所有平台的兼容性和便携性的问题。被收购后,Vertex.ai 并入英特尔 Movidius 部门,PlaidML 在 Apache 2.0 开源授权项目下使用英特尔的 nGraph 编译器后台继续支持一系列硬件。
英伟达凭借 GPU 在 AI 市场所向披靡,让英特尔阵阵刺痛,这也激发了英特尔研发 GPU 的决心。2019 年 2 月,英特尔收购了印度初创公司 Ineda Systems,这家公司是由海德拉巴市连续创业家 Gude Dasaradha 于 2011 年创立,进行人工智能、自动驾驶和物联网技术开发,2013 年至 2014 年间,该公司因设计和开发用于可穿戴设别的低功耗 SoC 芯片而闻名。重点在于,此次收购令英特尔从 Ineda 公司吸纳超过 100 名具备图形开发技术的工程师。英特尔表示,本次交易有助于自己打造世界级的独立 GPU 产品。
对于 AI 市场,英特尔可谓不惜重金布局,处处圈地,势在必得。
Habana Labs:为了“被收购”而生
Habana Labs 这家公司可谓以技术取胜,在 2018 年就发布了推理处理器 Goya,而这个产品简直就是为了被英特尔收购而打造的。笔者第一次采访 Habana Labs 是在 2019 年 6 月,其首席商务官 Eitan Medina 向与非网介绍,基于 Goya HL-1000 处理器的 PCIe 卡可基于 ResNet-50 推理基准实现每秒 15000 张图片的吞吐量,延迟时间为 1.3 毫秒,功耗仅为 100 瓦,主要应用于数据中心。
让笔者吃惊的是,Habana 的 Goya 产品直接对标的就是英伟达的 Tesla T4,从对比图上可以看出,Goya 的性能是 Tesla T4 的三倍;从能耗上来看,比 GPU 有两倍的优势;在实时处理上,延迟也比 GPU 要低很多。与传统的 CPU 对比,8 片 V100 GPU 的性能等同于 169 片传统 CPU 的处理能力,而 3 片 Goya 处理器就可以达到 8 片 V100 的处理效果。
如果我是英特尔,看到 Goya 的性能也会心动的。
Goya 产品与 Tesla T4 的对比
在架构方面,Habana 设计了一款叫做 Tensor processor core(张量处理核心)的架构,其中设有一个矩阵乘加家族单元,这种架构让 Goya 支持不同的神经网络结构,可以处理不同类型的数据。大家应该还记得将 AI 推向风口浪尖的 AlphaGo,殊不知 AlphaGo 的高配版本使用了 1920 个 CPU 和 280 个 GPU,可想而知,能效是谷歌必须要解决的问题。为了设计更高效、更低能耗的芯片,谷歌选择了张量处理器(TPU)的自主研发。Habana 的设计方法和谷歌的 TPU 出奇的一致。
当时,我就预感 Habana 将会很快成为大公司的收购目标,当我了解了 Eitan Medina 的创业经历后更加笃定。Eitan Medina 在加入 Habana 公司之前有三段工作经历,都和收购有关,他曾在 InvenSense 担任市场营销副总裁,后被 TDK 收购;在 Audience Inc 担任工程副总裁,后被 Knowles 收购;在 Galileo 担任首席技术官,后被美满电子收购。果然,Habana Labs 于 2019 年被英特尔收购,成就了 Eitan Medina 的第四段被收购经历。
砍Nervana 壮士断腕,推Habana上位对AI市场势在必得
自从被收购以后 Nervana 就少有产品发布,外界一直在猜测:Nervana 是不是销声匿迹了? 在 2019 人工智能峰会上,英特尔发布了两款 AI 芯片(Nervana 神经网络处理器)NNP-T 和 NNP-I。其中,NNP-T 代号 SpringCrest,用于训练,NNP-I 代号 SpringHill,用于推理。 NNP-T 代号 SpringCrest ,基于台积电 16nm FF+制程,在 680 平方毫米的硅片面积上集成 270 亿个晶体管,可以从头开始构建大规模深度学习模型;NNP-I 代号 SpringHill, 基于 10nm 制程和 Ice Lake 内核,专门用于大型数据中心的推理芯片,可以加速大规模深度学习部署。
在去年年底在北京举办的英特尔 AI 峰会上,Nervana 团队终于又发声了,而且带来了新一代了 Movidius VPU,计划在 2020 年上半年推出,代号为 KEEM BAY。英特尔的 AI 市场营收也交出了一份不错的答卷:35 亿美金。这个数字相对未来几年近 300 亿的 AI 芯片市场,显然还是太小,英特尔需要继续发力。
KEEM BAY 的相关负责人介绍,其采用了专用架构,性能高度优化,针对边缘推理,在性能上有巨大提升。在处理速度上,KEEM BAY 是英伟达 TX2 的 4 倍,而且要比 Ascend 310 快 25%;在能耗上,KEEM BAY 提供的每瓦的推理性能是英伟达 TX2 的 6 倍,每一平方毫米的推理性能是英伟达 TX2 的 8.7 倍。
KEEM BAY 的参数到底是什么水平呢?我去查了一下英伟达 TX2 的技术参数,GPU 采用 NVIDIA Pascal 架构,配置 256 个 CUDA 内核。再看英伟达的 Tesla T4 ,拥有 320 个图灵张量(TURring Tensor)内核 + 2560 个 CUDA 内核,而图灵张量内核(Tensor Cores)的性能是 Pascal 的 5 倍。
按照 Habana 的介绍,Goya 的性能是 Tesla T4 的三倍,如果单从 CUDA 内核比较,KEEM BAY 对等 1024 个 CUDA 内核,Goya 处理器对等 7680 个 CUDA 内核,加上 Tensor Cores 的性能是 Pascal 架构的 5 倍,显然 KEEM BAY 已经被秒杀了。即便是面向边缘推理,KEEM BAY 相对 Goya 也差距太大。关于 Nervana 的两款产品,英特尔也承认,客户和工程师反馈后认为,Spring Hill 和 Spring Crest 的第二代 Nervana 设计,根本无法满足高性能工作负载的需求。
物竞天择,择优录用。英特尔作为一个商业公司不会在一个性能达不到预期的产品上浪费过多的时间和金钱,及时收手,果断砍掉 Nervana 是必然之举。
结语
“只要涉及企业管理,我就相信偏执万岁。企业的繁荣中孕育着自我毁灭的种子,你越是成功就越容易遭到对手的攻击,他们一块块地吞食你的生意,最后可能一无所有。我认为,作为一名管理者,最重要的职责就是常常提防他人的袭击,并把这种防范意识传播给手下的工作人员。”这段话出自英特尔前 CEO 格鲁夫。
是他的偏执让英特尔在 PC 时代走向了辉煌,英特尔成立 70 多年来,一直在转身,一直在抉择,一直在放手,也一直在收获,或许这次豪赌会让英特尔赢得未来的 AI 市场。