加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

能和英伟达一决高下的AI新秀已然“横空出世”

2019/06/25
126
阅读需 25 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

“站在风口上,猪都能飞起来!”这是互联网时代被大众一度捧上神坛的信条,但是在 AI 时代,创业者站上 AI 跑道就能赢吗?如果只凭站对赛道就能起飞,大众太高估 AI 这阵风了。不管国内的 AI 四小龙,还是传统 BAT,没有技术实力一定走不远,但是如果有过硬的技术实力,就是身处犄角旮旯也会被投资人发现。

去年 11 月,一则“Habana Labs 获得 7500 万美元 B 轮融资”的新闻将 Habana Labs 这家公司带进公众的视野。一出道就光芒四射,这是何方神圣?曾经有多少人惊叹于以色列强大的创新力,这家公司就于 2016 年诞生于以色列,其首席商务官 Eitan Medina 坦言,我们的目标是改变云端、数据中心以及其它新兴应用的人工智能处理方式。Habana Labs 也在践行这一目标,目前针对 AI 深度神经网络训练和推理部署都推出了对应的产品。

Habana Labs 首席商务官 Eitan Medina

 

Goya 处理器一经亮相,引起业界轰动
人工智能分为训练阶段和推理阶段,GPU 已成为处理 AI 流程所需的快速计算的首选芯片之一,英伟达的芯片一直在 AI 领域占据着主导地位。但是新兴公司也在试图优化 AI 处理流程,从而设计出速度更快、更节能的产品。Habana Labs 于去年推出其推理处理器 Goya,而且从概念到经过严格测试并准备好投产仅仅用了不到一年的时间。

基于 Goya HL-1000 处理器的 PCIe 卡可基于 ResNet-50 推理基准实现每秒 15000 张图片的吞吐量,延迟时间为 1.3 毫秒,功耗仅为 100 瓦,主要应用于数据中心。

Goya 处理器的性能到底处于什么水平?只凭参数很难下结论。Habana Labs 和英伟达的 GPU 做对比,其首席商务官 Eitan Medina 介绍,“从上图中可以看出,Goya 的性能是 Tesla T4 的三倍;从能耗上来看,比 GPU 有两倍的优势;在实时处理上,延迟也比 GPU 要低很多。”


与传统的 CPU 对比,8 片 V100 GPU 的性能等同于 169 片传统 CPU 的处理能力,而 3 片 Goya 处理器就可以达到 8 片 V100 的处理效果。

为 AI 而生的架构是 Goya 实现高性能的“秘诀”
都说术业有专攻,如果 CPU 和 GPU 是针对通用计算而生,那么 Goya 就是针对人工智能而生。Habana Labs 在架构上下了功夫,设计了一款叫做 Tensor processor core(张量处理核心)的架构,其中设有一个矩阵乘加家族单元,这种架构让 Goya 支持不同的神经网络结构,可以处理不同类型的数据。

在 ResNet-50 上,Batch Size 的大小会直接影响处理器的性能。尤其是在数据中心计算,批处理的尺寸会对整体性能产生很大的影响,在 GPU 中为了实现最高性能,不浪费 GPU 的计算能力,批处理的数量一般很大。在传统处理中,为了实现大的 Batch Size,用户必须把尽可能多的内容加载进去,无形当中就会造成计算延迟变大。而 Goya 处理器可以实现 Batch Size 等于 1,这意味着一次可以处理单一图片,因此可以实现一秒钟处理 7000 多张图片的性能。

HabanaLabs 的技术实力很快打动了资本市场,于 2018 年 11 月获得 7500 万美元超额认购的 B 轮融资,由英特尔领投,WRV Capital,Bessemer Venture Partners,Battery Ventures 等创投公司的参与。

Gaudi 处理器让人工智能训练领域有了新突破
做 AI 的公司都有感触,训练比推理要难,这也是很多公司先做推理后做训练的原因,而且还有很多公司对推理技术久攻不下。2018 年 9 月,Janus Henderson Investors 分析师兼科技板块联席主管 Jon Bathgate 表示,在未来 18 至 24 个月里,很难想象有人会在培训方面挑战英伟达。

出现挑战就有人敢于接受挑战,挑战成功创新就出现了,18 个月的预期还未到,Habana Labs 就带来了用于人工智能训练的处理器 Gaudi,而且对标的产品正是英伟达。Eitan Medina 表示,“基于 Gaudi 的训练系统实现了比拥有相同数量的 GPU 系统高四倍的处理能力。”

除了领先的性能,Gaudi 处理器还为人工智能训练带来了另一项“行业第一”,这就是 Gaudi 上集成了 RDMA over Converged Ethernet (RoCE v2) 功能,从而让人工智能系统能够使用标准以太网扩展至任何规模。Habana Labs 在 Gaudi 芯片中集成了 10 个 100G 的以太网端口,每个以太网端口都支持 RDMA over Ethernet。

差异化就体现在这里,目前市场上其它的训练和扩展环境,都使用专有的网络协议,而 Gaudi 采用的是通用以太网协议。英伟达就受限于所采用的私有协议 NVLink,无法做大规模的扩展,如果要做扩展,要通过传统的 RDMA 的功能实现不同规模的扩展,而 Gaudi 处理器已经将 RDMA 集成到芯片内部。英伟达也认同 RDMA 技术的重要性,因此收购了一家做 RDMA 的公司叫做 Mellanox。

在扩展性方面,如上图,系统中有 8 个处理器,每个芯片上有 10 个 100G 以太网口,其中 7 个网口和其它 7 颗芯片直接连接互相通讯,剩余 3 个网口对外连接,因此系统内部的 8 个芯片之间的数据可以无阻塞传输。对外,可以在机架内一层一层叠加,通过一个简单的以太网交换机,就可以把所有的设备连接起来;在机架与机架之间,通过彼此之间的以太网交换机的互联能够形成更大规模。因此,Gaudi 处理器不仅可以实现垂直性扩展,还可以实现横向性的大规模扩展,保证数据在这些系统当中的传输是以最小的数据比来进行传输。

对比英伟达的 DGX1,里面也有 8 个 V100 芯片。但是 DGX1 采用了专有协议 NVLink 实现芯片间互联,因此它只能实现两个芯片之间的互联,当它从一个片跳到另外一个片,中间要进行跳跃,比如两个片中间还有两个片,必须要跳三跳才能到最后一个。另外,如果 DGX1 要实现扩展,只能依赖于它在网上插的四个 100G 的以太网端口实现系统扩展。在 Gaudi 系统中,对外支持 24 个 100G 端口,因此其在扩展性能和带宽上比 DGX1 高很多。

未来,等待 Habana Labs 的无非就是两种命运,一是被收购,就如中国的 AI 创业新星深鉴科技,归于赛灵思旗下,从此衣食无忧;二是奋不顾身冲进市场厮杀,凭借技术优势占有一席之地。更巧的是,Habana Labs 的首席商务官 Eitan Medina 在加入公司之前有三段工作经历,都和收购有关,他曾在 InvenSense 担任市场营销副总裁,后被 TDK 收购;在 Audience Inc 担任工程副总裁,后被 Knowles 收购;在 Galileo 担任首席技术官,后被美满电子收购。或许,Habana Labs 会成就 Eitan Medina 的第四段被收购经历。

与非网原创内容,未经允许,不得转载!

英伟达

英伟达

NVIDIA(中国大陆译名:英伟达,港台译名:辉达),成立于1993年,是一家美国跨国科技公司,总部位于加利福尼亚州圣克拉拉市,由黄仁勋、克里斯·马拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同创立。公司早期专注于图形芯片设计业务,随着公司技术与业务发展,已成长为一家提供全栈计算的人工智能公司,致力于开发CPU、DPU、GPU和AI软件,为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。

NVIDIA(中国大陆译名:英伟达,港台译名:辉达),成立于1993年,是一家美国跨国科技公司,总部位于加利福尼亚州圣克拉拉市,由黄仁勋、克里斯·马拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同创立。公司早期专注于图形芯片设计业务,随着公司技术与业务发展,已成长为一家提供全栈计算的人工智能公司,致力于开发CPU、DPU、GPU和AI软件,为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。收起

查看更多

相关推荐

电子产业图谱