芯片世界观︱最新企业级CPU Naples被指没戏，AMD：别惹我，蓝瘦

Naples 首个基准测试显示，AMD 这个新的顶级企业解决方案配备了 32 个核心。
然而，与英特尔现有的顶级企业双 CPU 解决方案 - 英特尔至强 E5-2699 v4 相比，这些基准测试仍然表现出极低的性能。
即使 Naples 只是工程样片，Geekbench 软件扩展性不佳，也没有那么准确，但这仍然不足以抹煞 Naples 与英特尔对标产品之间的巨大差异。
Geekbench 基准测试显示 Naples 配备了 512 MB 的 L3 缓存，但这很可能只是程序上对关联 / 共享缓存的读取错误。
虽然 AMD 的 Naples 企业解决方案看起来没有那么出色，但 AMD CPU/APU 部门的真正希望可能来自未来的 APU Raven Ridge（2017 年中期）和 Gray Hawk（2019/2010）。

AMD 即将推出企业解决方案“Naples”。据称，这款 CPU 配备多达 32 个核心和 64 个线程，以便能够在企业计算和服务器市场具有竞争力。

我一度相信，这个 CPU 将是对 AMD 现有解决方案的一个持续改进，但如果我们看看最近的基准测试报告，会发现与英特尔的实际产品相比，AMD 依然掉队很多。

架构
由于 Naples 采用了 Zen 架构，所以其架构实现和改进基本上和已经披露的 Zen 相同：采用 SMT（同步多线程）技术、每个 BTB（分支目标缓冲器）使用双路径改进分支预测性能、增加了高速缓存容量、更高的缓存带宽、更大的调度器、四发射 FPU、装载 FPU 时间从 9 个周期下降为 7 个周期、堆栈引擎等等。

改进这么多，但我想重点突出一下 L3 缓存系统：Naples 由多达 8 个块（或 CPU complex - CCX）组成，每个 CCX 含有 4 个内核，每个内核都有各自的 L0、L1 和 L2 缓存，同时，每个 CCX 还包括具有 16 个关联路径的 8MB L3 高速缓存，分配到每个内核 2MB，而且每个 2MB 的块被划分为两个大小为 1MB 的子区。

必须强调的是，L3 高速缓存是完全包含和完全共享的。

Geekbench 基准测试
上个月，Naples 的几项 Geekbench 基准测试结果遭到泄漏，这些结果向我们描绘了 Naples 的性能水平。

第一项 Geekbench 4 基准测试显示，Naples 单线程测试结果为 1141，多线程测试结果为 15620。需要特别指出的是，在这项基准测试中，L3 缓存大小被错误读取为 0 Kb。

第二项 Geekbench 3 基准测试显示，Naples 单线程测试结果为 984，多线程性能介于 15041 和 16957 之间。WCCFTECH 认为，第二项基准测试的结果要好于第一项基准测试。但这种判断有点武断，因为和 Geekbench 4 相比，Geekbench 3 给出的跑分结果通常都会高出 10-15%。

因此，在这里谈论哪个结果更好是没有意义的，测试基准不同，很难相提并论。

对比 Xeon E5-2699 V4
由于这个 32 个核心的 Naples 版本预计将成为 AMD 的顶级 CPU，所以我想将其与英特尔现有的配置最类似的产品进行比较，即至强 E5-2699 V4，它有两个 CPU，每个 CPU 集成了 22 个核心。所以，我们的两个比较对象分别是英特尔的 44 个核心、88 个线程的至强 E5-2699 V4 和 AMD 的 64 个核心、128 个线程的 Naples。

以在 Linux 下运行最慢的 Geekbench 3 基准测试为例，英特尔这款产品的单线程测试结果为 2507（比 AMD 高出 155%），多线程测试结果为 81629（比 AMD 高出 381%）。

很明显，差异是巨大的，不过这种差异可能是由以下几个因素造成的：

1、Naples 研发进度落后于既定的发展路线图，考虑到 Zen 架构马上就要问世，而且 Naples 同样使用 Zen 架构，这有点说不大过去。
2、Naples 可能只是在基本时钟频率下运行的，但这不足以抹煞两者之间的巨大性能差异。
3、有可能受到 Geekbench（或运行系统）读取 L3 缓存容量错误的影响，如果缓存没有正确工作，性能也将受到影响（但影响幅度不会这么大）。
4、由于我们讨论的是双处理器配置，虽然 Geekbench 的扩展比率不高，也有可能其中一个 CPU 确实没有工作起来。而且，Naples 实际上达到了 17 倍的扩展比率，而英特尔 2 个 CPU 达到 23 倍的扩展比率，单个 CPU 达到 15 倍的扩展比率。不管是不是有一个 CPU 没有工作，它们之间的性能差异仍然太巨大了。

显然，AMD 设计 Naples 的目的是为了杀入服务器市场，这颗芯片具有大量的虚拟化功能，得益于每个 CPU 集成 32 个核心、64 线程，所以具备大量的独立运行线程，但是，只有在它的性能可以和竞争对手一较高低时，AMD 才能发挥出 Naples 这些优势。而且，英特尔将在不久的将来发布其新的 Skylake 服务器 CPU 和 Xeon Phi 多格式解决方案。

Xeon Skylake 和 Xeon Phi
英特尔目前正在为服务器和深度学习目标市场发布新的插槽，新插槽的尺寸令人惊讶，它几乎是 LGA 2011-3 的两倍大小。

LGA 3647 旨在支持新的 Xeon Phi CPU-Knights Landing，这颗 CPU 配备 16 GB 的 3D MCDRAM（一种类似于 HBM 的英特尔专属 3D 内存）和 72 个增强型 Silvermont 核心（兼容 Haswell）、多增加了 2 个 AVX 512 位 VPU，这个 CPU 尺寸不小，还配备了 6 个 DDR 通道。

这个 CPU 能够在二进制级别上兼容 Haswell，基本上能够自动地以套接字或协处理器模式运行，大大提高了英特尔解决方案的计算能力，它同时采用了 4 SMT 架构，可以在每个核心上运行四个线程，也进一步增强了计算能力。在协处理器目标应用市场，该方案正面临来自英伟达的竞争威胁，AMD 同时也要在 2017 年中发布其基于 Zen 和 GCN 架构、集成 HBM 模块的企业级 APU 进入这个市场。不过，考虑到核心数量预计提升不多以及性能差异不大，很难想象 AMD 于 2017 年发布的新产品会给英特尔现有的产品带来多么强的竞争压力。由于热功耗的限制，集成了 GCN GPU 和 HBM 模块的 Naples CPU 不会实现太大的性能提升。因为，Naples CPU 的总设计功耗预计为 150W。事实上，有传言谈到一个搭载北极星架构 GPU 的 16 核心版本 Naples，它能够在 32 位下实现 4 TFLOPS 的运算能力，想挑战英特尔具备完全自主优势，32 位运算能力能达到 6 TFLOPS 的 Knights Landing，这个指标有点太低了。而且，AMD 这款产品只有 32 个线程、4 个 DDR 通道，英特尔的 Knight Landing 则有 288 个线程、6 个 DDR 通道，所以这款传言产品和英特尔的目标市场在本质上是不同的，而且 AMD 的 APU 不能使用集成 GPU 运行一些通用的线程，通用线程是在 CPU 上运行的。

我们还必须考虑到，英特尔将在 2017 年年底和 2018 年之间发布其 10 nm CPU，而基于 10 nm 光刻技术的 Knights Hill 和 Knights Mill 也将在 2018 年推出，这将再次带来一贯的性能升级。

相反，AMD 将在 2018 年年底发布其 12nm 产品，2019 年年底发布 7nm 产品。

此外，英特尔将把 LGA 3647 插槽用于 Skylake 处理器，这就意味着有可能出现比传闻的 26-28 核心数更多的 CPU 版本，这意味着 Naples 核心数量的相对优势有可能不存在。Skylake 还将集成 100G OmniPath 互连、AVX 512 指令集、Cannonlake 图形，并将在收购 Altera 之后第一次集成 FPGA：这将是一个性能出色的组合，肯定会吸引许多客户。

Naples 的 L3 高速缓存问题
另一个必须强调的事情是 L3 高速缓存问题：最新的基准测试结果显示，Naples 每个 CCX 配备了 64MB L3 缓存，这就意味着每个 CPU 提供惊人的、高达 512MB 的 L3 缓存，各个网站都对这个巨大的数字很兴奋，但是，这个数据有可能是完全错误的。

这可能是由 Geekbench 的一些读取错误引起的，考虑到缓存是完全共享的和包容的，这种错误也是很容易解释的。Naples 基于 Zen 架构，考虑为每个核心使用 2MB 的 L3 缓存，每个 CCX 有四个核心，Naples 由 8 个 CCX 组成，可以得出 L3 缓存的大小总共为 64MB。关于这个问题，考虑到 Geekbench 做基准测试的架构不是 AMD 官方提供的，所以很容易遇到这些程序错误。

此外，从制造工艺的角度，如果我们使用英特尔密度更高的 14nm 光刻技术构建 512MB 的 L3 缓存，裸片尺寸几乎就要达到 1000mm2，这还仅仅是用于 L3 缓存的：这种尺寸几乎是英伟达 GP100 裸片尺寸的两倍。我们还没有考虑其他组件，如 32 个 CPU 内核、指令高速缓存、多媒体解码器和编码器、4 个内存控制器、其他控制器等。单从制造上来讲，这基本上是不可行的，而且非常昂贵，这种大尺寸高速缓存的可用性也是很值得质疑的。

要点
尽管 AMD 的 Naples 和 Snowy Owl 距离正式发布还有很长一段时间，但是考虑到这些基准测试结果，拿它来对标英特尔即将发布的新解决方案是不合适的，至少现在看来是这样。

的确，这些只是初步的基准测试结果，但是考虑到 Naples 使用的是在未来三四个月就要上市的 Zen 架构，它不可能那么落后于既定的发展路线图。

Snow Owl（企业级 APU）仍然没有基准测试结果问世，但是看起来它也不会提供多么强大的性能。它将有 16 个核心，并将配备 HBM 模块以及等价于实际的北极星 10 之类的模块，以实现 32 位下的 4+ TFLOPS 性能。用它来对抗传统的 Xeon CPU 或 Knights Landing 有点太不自量力了。英特尔的 Knights Landing 集成了 3D MCDRAM、6 个 DDR 通道、6+ TFLOPS 32 位运算能力、72 个核心、288 个线程，而且因为与 Haswell 二进制兼容，所以能够利用对 Haswell 的每次优化。这就够 AMD 喝一壶的了，更不用说具有 6 个 DDR 通道、集成 FPGA、英特尔 OmniPath 的 Xeon Skylake，或者预计将在 2018 年上市的 Knights Hill/Knights Mill 组合了。

AMD 可能真正给英特尔制造麻烦的是在消费级 APU 市场，那些客户想用集成显卡玩中低级别的游戏，并获得良好的图形效果。AMD 可以发布集成单个 HBM 模块的 Raven Ridge 解决方案，实现 128 GB/s 的视频内存带宽和 768 个 GPU 内核。问题是，要发布的 APU 的 TDP 必须在 45W 以下，将集成 4 个 CPU 内核，而且 HBM 模块也会发热并消耗一些功率，这意味着 GPU 进行图形运算的 TDP 最大为 20-25W。因此，集成 GPU 可能需要在 1G+Hz 左右的频率下提供 1.5+ TFLOPS 的 32 位计算能力。

例如，运行游戏《古墓丽影 - 崛起》的独立显卡 M385X：在 Notebookcheck 进行的测试中，它在 FHD 中的分辨率接近 20 fps，但未来的集成显卡可能实现 M385X 约 0.85 倍（考虑到架构改进）的性能，分辨率约为 17 fps。在同等的条件下，英特尔现在的高清显卡的得分为 12.2 fps，两者差距不是很大。考虑到 Kaby Lake 显卡能够在图形性能上提升大约 20/40%，所以这两种顶级 APU/SOC 之间差异不会很大。无论如何，这才是 AMD 可能与英特尔一较高下的领域，也是 AMD 必须集中精力的所在，因为笔记本电脑市场可能会带来一些积极的战果。

更多有关 AMD 的资讯，欢迎访问与非网 AMD 专区

与非网编译，未经许可，不得转载！