加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 英伟达Thor中央计算平台
    • Grace Hopper超级芯片的内部框架图
    • 英伟达H100的SM(流多处理器)内部图
    • ARM 服务器CPU架构路线图
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

深度分析英伟达Thor,2000 TOPS是真的吗?

2023/01/31
4090
阅读需 8 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

英伟达Thor不仅是自动驾驶SoC,在英伟达的设想中,Thor将座舱、自动泊车和自动驾驶都收入囊中,也就是真正意义上的中央计算中心或者中央服务器,也是Zonal架构的核心。这是英伟达最具野心的芯片,不仅是自动驾驶,高通的大本营——座舱也要拿下。吉利旗下的极氪已经确定采用。

英伟达Thor中央计算平台

图片来源:NVIDIA

Thor的公开资料很少,据英伟达的介绍,Thor就是英伟达Grace CPU和HopperGPU的结合,英伟达称之为Grace Hopper架构,这两者的公开资料还是不少的,本文依据的资料主要来自英伟达GraceHopper 架构白皮书。

Grace Hopper超级芯片的内部框架图

Hopper实际就是英伟达的H100 GPU。图片来源:NVIDIA

来一张H100的高清大图,H100分两种,一种是SXM,另一种是PCIe。H100SXM5的INT8算力峰值可达4000TOPS,PCIe是3200TOPS。最近还有一种FH H100,性能略高于SXM。注意H100主芯片旁边的6个紧贴着的芯片,那就是昂贵的HBM3,由韩国SK Hynix提供,目前全球只有SK Hynix能够量产HBM3,也只有英伟达一个用户。这种芯片不太严格地说也能算Chiplet晶粒,那6个芯片实际应该叫die,由于价格非常昂贵,即使英伟达也要节约着用,每个die是16GB,不过有一个是空的,H100的HBM3是80GB,之所以加一个空的,主要是考虑到热效应,少一个die,热量分布不均匀。这也是台积电CoWoS不如英特尔EMIB的地方,英特尔可以不加空die。

图片来源:NVIDIA

上表为H100算力参数升级后的数据,离英伟达第一次宣传的算力几乎没有差别,峰值INT8达到近4000TOPS,这是自动驾驶最常用的格式。特斯拉自己研制的数据中心芯片Dojo D1被英伟达H100秒杀,Dojo D1的FP32算力仅为22 TFLOPS,不及英伟达H100的1/3。BF16精度算力为362TFLOPS,而H100是1979TFLOPS。二者差距明显。这些算力都是稀疏模型下取得的,稠密模型下减半。

英伟达H100的SM(流多处理器)内部图

图片来源:NVIDIA

H100SXM5每个GPU包含132个SM,H100PCIe每个GPU包含114个SM。每个SM包含128个FP32 CUDA核心,128个FP64
CUDA核心,来应对FP32/FP64格式。H100SXM5第四代Tensor核心数量是528个,H100PCIe是456个。FP32核心会占用很大面积的die,Thor不做数据中心训练用就可以不要FP32核,或者只需要很少,2-4个就够。Tensor核心只需要H100的一半,也就是264个,Thor似乎就能做到2000TOPS了。

实际H100关键的地方不在GPU核心,而是存储,这才是H100高算力的关键。H100的成本估计在1万美元左右,售价约3万美元,而存储占的成本估计有一半,甚至会超过一半。

来源:公开信息整理

对于深度学习或者说人工智能运算,瓶颈就在存储器,最简单的解决办法就是用HBM3内存,HBM就是高宽带

图片来源:SK Hynix

高性能AI芯片必用HBM,HBM有三个缺点,一是价格昂贵,每GB成本大约20-40美元,至少8GB起售;二是必须使用2.5D封装,成本进一步增加;三是功耗增加不少。H100 PCIe的功耗仅H100 SXM5的一半。除了数据中心用得起HBM,消费类电子和汽车是不可能的。仅此一项就占了H100 SXM5大约2500美元的成本。

HBM的成本还不是最高的,最高的成本是SRAM,也就是L2缓存,H100用的是台积电N4也就是4纳米工艺,不过这种工艺如果做SRAM并不会提高密度,N4工艺下每MB的SRAM成本大约40-50美元,也有人估计是近100美元。FH H100用的是60MB的SRAM,成本更高。这50MB的SRAM会占用大约2000美元的成本。

Thor的价格不会高于500美元,超过500美元,车厂就无力承受了,也就不可能用HBM,也不可能用高容量的SRAM,Thor顶多会用LPDDR5,SRAM容量估计2-3MB。能不能达到2000TOPS的算力,相信大家都已经很清楚了。

看完GPU再来看CPU。

图片来源:NVIDIA

英伟达的Grace超级芯片实际是两片芯片合起来的,每颗芯片有72个核心。这个核心就是Arm 的Neoverse
V2。

ARM 服务器CPU架构路线图

图片来源:ARM

V系列是高性能系列。

图片来源:ARM

与Orin的A78不同,Thor的Neoverse V2就是针对服务器设计的,一般来说最少都有24核心。Grace超级芯片每个核心有64 KB I-cache 和64 KB D-cache,L2级缓存也就是SRAM可以选1或2MB,英伟达节约成本,选择的是1MB,毕竟SRAM太贵了。L3缓存是234MB,每核心是1.625MB。英伟达为Grace超级芯片配备的板载DRAM是LPDDR5,容量高达960GB,每颗芯片有480GB。

Grace超级芯片的功耗为500瓦,Thor在CPU部分功耗估计不超过20瓦,估计是24核心,甚至是16核心,对应的LPDDR5估计不超过64GB,否则就成本太高了。

英伟达希望靠算力军备竞赛把对手拖下泥潭,一味追求算力或者说数字,都可能被英伟达吊打,功耗和价格是英伟达的缺点,高通未来有能力抗衡英伟达。

英伟达

英伟达

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。

为这个时代的达芬奇和爱因斯坦们提供超强计算性能。我们开创性地开发出一种超强计算形式,深受全世界对计算机有超高要求的用户的青睐,包括科学家、设计师、艺术家和游戏玩家。对于他们而言,我们的创造几乎可媲美时间机器。基于对更优质 3D 图形永无止境的需求以及当下庞大的游戏市场,NVIDIA 已在这个虚拟现实、高性能计算和人工智能的交叉口,将 GPU 发展为计算机大脑。收起

查看更多

相关推荐

电子产业图谱

佐思汽车研究:致力于汽车、TMT、新能源(特别是新能源汽车、智能汽车、车联网)领域的产业研究、专项调研、战略规划和投资咨询服务。