现代数据中心和 HPC 环境的快速变化要求技术行业提供更强大的算力,而该行业在提供算力容量方面遇到重大障碍。或许很少有人比 AMD 总裁兼首席执行官苏姿丰更了解这一事实。
设备的数量正在激增,大量的数据正在被生成,需要处理分析,所以我们利用机器学习来教计算机去做这些事情,因为人类和他们编写的顺序代码跟不上处理节奏。人工智能、数据分析、软件定义的存储和沉浸式计算——它们都需要更多的计算能力,苏姿丰在斯坦福大学的 Hotchips 会议上的演讲中解释道。
苏姿丰说,所有这一切的关键信息是,无论您谈论的是哪些应用,您都需要更多的算力才能取得进展,如果没有摩尔定律的约束,这将会变得有趣,但更有趣的是,应用需要我们超越摩尔定律。我们需要比业界过去做得更多,因为应用程序和数据需要更多的算力。
当然,说起来容易做起来难。十多年来,CPU 和 GPU 的性能每两年多稳步提高一倍,晶体管密度每三年翻一番,能效也花了近四年的时间来提高一倍。苏姿丰提供了一组数据数据,如下,自 2006 年以来两个套接字服务器的浮点和整数性能,此时公共云真正开始起飞:
以下是晶体管密度和功率效率趋势:
然而,为了保持或扩展性能曲线,还需要做一些事情,在过去十年中,工艺技术占工作量的 40%左右,模具尺寸和额外的 TDP 占另外 20%,其余部分由微架构、电源管理和编译器组成。
想要进一步提升高性能计算的性能(一般意义上,不意味着模拟和建模)变得越来越困难,障碍包括摩尔定律的放缓和模具尺寸的增加成本的上升。下面是摩尔定律曲线:
可以看到,曲线正在弯曲,因为连续节点需要更多时间才能上市,同时,随着开发和软件成本的上升以及工程和制造设备成本的提高,将芯片推向市场的成本也在上升。如下图,我们可以看到每个制程花费的成本曲线:
具有讽刺意味的是,早在 AMD 在 Opteron 时代谈论电源效率时,它比英特尔的至强处理器具有优势时,数据中心公司还不太关心这一原始性能。但是现在,所有处理器,无论你在芯片设计上与系统集成了多少,都面临着巨大的电源和冷却挑战。
苏姿丰表示,把优化电源放在第一位的想法在过去的七到八年间就已经出现,我们一直在推动。对于我们性能最高的处理器以及我们的竞争对手,我们不断努力推动电源的包络。我们在冷却技术和冷却能力方面已经做的足够好了,但是也只是获得了一点点性能的提升。我们将继续尝试推动电源的包络,但不要忘记,芯片冷却有一些重要的物理极限。
AMD 工程师在开发公司的 Zen 架构时考虑到了所有这些,该架构于 2017 年首次亮相 Epyc 服务器处理器,随后在本月早些时候推出了第二代 Epyc "罗马"芯片和 Zen 2 架构。
在 Hotchips 会议上,苏姿丰用 AMD 的 Zen 1 和 Zen 2 的设计和架构工作举例说明作为行业需要做些什么来跟上对更多计算能力日益增长的需求,同时克服传统芯片工作固有的障碍。一般来说,这意味着要从整体上看待挑战,不仅使用芯片,还包括系统和软件,开发针对它们运行的工作负载优化的微架构,并创建合作伙伴生态系统。这也意味着,要向下看未来几代产品,以确保它们继续提高性能并控制成本。
我们在 2013-2014 年的时间范围内看到了这两个趋势,苏姿丰表示,有些事情必须改变。你不能只做越来越大的单片芯片,虽然做到这一点不难,但你并不会得到性能的提升,所以我们在多芯片架构上进行了大量的投资。
这就是着利用多芯片模块的芯片,这也是从第一代 Zen 架构到第二代架构发生的重大转变。
苏姿丰说,这样做的目的是为了赚更多的钱。这是为了确保您以更好的成本点获得更高的性能,因此我们通过使用更小的模具获得更好的产量,还获得了一个不错的架构。当我们迁移到 7 nm 时,我们强调了小芯片的概念,要对晶体管做出正确的优化。在第二代 EPYC 中,我们认为最有价值的晶体管是 CPU,所以我们用 7nm 制程制作。但是,I/O 和内存,坦率地说,没有那么大的价值,所以我们实际上用的 12nm。因此,我们可以看到每个 IP 都使用了符合它的最佳工艺技术。实际上,这是一个非常好的架构,它打破了一些传统趋势,坦率地说,它给了我们非常强大的灵活性。使用相同的基本设计,我们可以覆盖高性能桌面处理器、高性能工作站和高性能服务器。这是一个例子,围绕小芯片架构的创新确实可以为未来带来回报。
与标准行业趋势相比,性能显著提升。
系统设计与芯片设计同样重要,苏姿丰说。关键是了解正在运行的应用程序,然后能够优化芯片和系统。芯片很重要,但系统需要的不仅仅是通用 CPU。还有有 GPU、现场可编程门阵列(FPGA)和自定义 ASIC,不同的应用程序需要不同的比率。异构平台还要求节点之间的高速互连,AMD 的罗马芯片便使用 PCI-Express 4.0 和先进的无限结构架构来满足上述要求。
如果芯片供应商要提供现代工作负载所需的性能,他们还需要了解软件和应用程序。
无论我们如何看待它,我们作为芯片公司需要确保我们的芯片尽可能可编程以提供最佳的系统性能,她说。从这个角度来看,有一大堆东西在"充分利用你的芯片"。我们试图让库、分析器、调试器、编译器,所有这些东西都尽可能为芯片优化。我们也坚信,在开源环境中,能够做得更好,这样每个人都能为此做出贡献。
例如,当开发人员将 TensorFlow 或 PyTorch 用于机器学习应用时,芯片制造商必须确保其产品针对该软件进行优化。
机器学习推动对更多计算能力的需求的应用程序。CPU 和 GPU 的计算能力每两年左右会翻倍。但是,对机器学习算法的更多训练的需求是每 3.5 个月算力消耗就要翻番。
这实际上是一件令人难以置信的事情,苏姿丰说,这意味着你可以想出这些伟大的算法,或者你花非常长的时间找出问题,或者你建立大型计算场,或者你试图获得更高效的计算,你可能做上述的每一件事情。
超级计算机的性能,如机器 500 强排名所体现的,是需要解决的挑战的另一个例子。超级计算机仍在加速,每 1.2 年翻一番,但速度正在放缓。下面是一个常见的经典的高性能计算应用程序:
需要创新才能使曲线回到正轨,而针对特定工作负载优化的系统是关键。但重要的是不要过分概括,苏姿丰通过比较传统 HPC 工作负载和更现代的 AI 工作负载的数据指出,这两个工作负载都可以在类似的 GPU 加速系统上运行:
在上图中,两个 HPC 应用程序具有不同的计算需求,分子动力学的 NAMD 应用程序是 GPU 密集型应用程序,而用于自然语言处理的机器学习应用程序需要比你预期更多的 CPU 性能需求。
这里我想说的是,如果你这样做,一切就很完美,但是事实并非如此,苏姿丰解释道,你要做到这一切,必须优化 CPU、GPU、互连、内存和网络带宽,才能真正在 HPC 中推动包络。
鉴于上述情况,她指出,围绕 CPU 和 GPU 开展的工作很多,但连接性创新的速度却没有跟上,内存带宽也是滞后的。
苏姿丰说,尽管我们继续投资内存和计算元素之间紧密的耦合,但随着时间的推移,内存带宽并没有真正跟上,我们是高带宽内存的忠实信徒。高带宽内存具有强大的路线图,对于芯片继续高速发展非常重要。我们还查看了模具中的大量优化,因此片上缓存层次结构可以对这些内存带宽产生更大的影响。随着我们不断推进,可以想象会用 3D 堆叠或其他集成方法将帮助拓宽内存带宽曲线。
苏姿丰指出,当 AMD 和 Cray(由 HPE 以 13 亿美元收购)为橡树岭国家实验室建造的 1.5 台超大规模超级计算机"Frontier"在 2021 年推出时,更多的优化工作将被展出。它将具有高度优化的 CPU 和 GPU,这是两者之间一致的互连,以及低延迟节点到节点功能。它还能够运行传统的 HPC 工作负载,还可以利用 AI 和机器学习进行商业应用程序。苏姿丰说,最终,该系统中的许多技术将进入更多的商业系统。
我们绝对相信这一点,这就是它应有的工作方式。
与非网编译内容,未经许可,不得转载!