- Naples 首个基准测试显示,AMD 这个新的顶级企业解决方案配备了 32 个核心。
- 然而,与英特尔现有的顶级企业双 CPU 解决方案 - 英特尔至强 E5-2699 v4 相比,这些基准测试仍然表现出极低的性能。
- 即使 Naples 只是工程样片,Geekbench 软件扩展性不佳,也没有那么准确,但这仍然不足以抹煞 Naples 与英特尔对标产品之间的巨大差异。
- Geekbench 基准测试显示 Naples 配备了 512 MB 的 L3 缓存,但这很可能只是程序上对关联 / 共享缓存的读取错误。
- 虽然 AMD 的 Naples 企业解决方案看起来没有那么出色,但 AMD CPU/APU 部门的真正希望可能来自未来的 APU Raven Ridge(2017 年中期)和 Gray Hawk(2019/2010)。
AMD 即将推出企业解决方案“Naples”。据称,这款 CPU 配备多达 32 个核心和 64 个线程,以便能够在企业计算和服务器市场具有竞争力。
我一度相信,这个 CPU 将是对 AMD 现有解决方案的一个持续改进,但如果我们看看最近的基准测试报告,会发现与英特尔的实际产品相比,AMD 依然掉队很多。
架构
由于 Naples 采用了 Zen 架构,所以其架构实现和改进基本上和已经披露的 Zen 相同:采用 SMT(同步多线程)技术、每个 BTB(分支目标缓冲器)使用双路径改进分支预测性能、增加了高速缓存容量、更高的缓存带宽、更大的调度器、四发射 FPU、装载 FPU 时间从 9 个周期下降为 7 个周期、堆栈引擎等等。
改进这么多,但我想重点突出一下 L3 缓存系统:Naples 由多达 8 个块(或 CPU complex - CCX)组成,每个 CCX 含有 4 个内核,每个内核都有各自的 L0、L1 和 L2 缓存,同时,每个 CCX 还包括具有 16 个关联路径的 8MB L3 高速缓存,分配到每个内核 2MB,而且每个 2MB 的块被划分为两个大小为 1MB 的子区。
必须强调的是,L3 高速缓存是完全包含和完全共享的。
Geekbench 基准测试
上个月,Naples 的几项 Geekbench 基准测试结果遭到泄漏,这些结果向我们描绘了 Naples 的性能水平。
第一项 Geekbench 4 基准测试显示,Naples 单线程测试结果为 1141,多线程测试结果为 15620。需要特别指出的是,在这项基准测试中,L3 缓存大小被错误读取为 0 Kb。
第二项 Geekbench 3 基准测试显示,Naples 单线程测试结果为 984,多线程性能介于 15041 和 16957 之间。WCCFTECH 认为,第二项基准测试的结果要好于第一项基准测试。但这种判断有点武断,因为和 Geekbench 4 相比,Geekbench 3 给出的跑分结果通常都会高出 10-15%。
因此,在这里谈论哪个结果更好是没有意义的,测试基准不同,很难相提并论。
对比 Xeon E5-2699 V4
由于这个 32 个核心的 Naples 版本预计将成为 AMD 的顶级 CPU,所以我想将其与英特尔现有的配置最类似的产品进行比较,即至强 E5-2699 V4,它有两个 CPU,每个 CPU 集成了 22 个核心。所以,我们的两个比较对象分别是英特尔的 44 个核心、88 个线程的至强 E5-2699 V4 和 AMD 的 64 个核心、128 个线程的 Naples。
以在 Linux 下运行最慢的 Geekbench 3 基准测试为例,英特尔这款产品的单线程测试结果为 2507(比 AMD 高出 155%),多线程测试结果为 81629(比 AMD 高出 381%)。
很明显,差异是巨大的,不过这种差异可能是由以下几个因素造成的:
1、Naples 研发进度落后于既定的发展路线图,考虑到 Zen 架构马上就要问世,而且 Naples 同样使用 Zen 架构,这有点说不大过去。
2、Naples 可能只是在基本时钟频率下运行的,但这不足以抹煞两者之间的巨大性能差异。
3、有可能受到 Geekbench(或运行系统)读取 L3 缓存容量错误的影响,如果缓存没有正确工作,性能也将受到影响(但影响幅度不会这么大)。
4、由于我们讨论的是双处理器配置,虽然 Geekbench 的扩展比率不高,也有可能其中一个 CPU 确实没有工作起来。而且,Naples 实际上达到了 17 倍的扩展比率,而英特尔 2 个 CPU 达到 23 倍的扩展比率,单个 CPU 达到 15 倍的扩展比率。不管是不是有一个 CPU 没有工作,它们之间的性能差异仍然太巨大了。
显然,AMD 设计 Naples 的目的是为了杀入服务器市场,这颗芯片具有大量的虚拟化功能,得益于每个 CPU 集成 32 个核心、64 线程,所以具备大量的独立运行线程,但是,只有在它的性能可以和竞争对手一较高低时,AMD 才能发挥出 Naples 这些优势。而且,英特尔将在不久的将来发布其新的 Skylake 服务器 CPU 和 Xeon Phi 多格式解决方案。
Xeon Skylake 和 Xeon Phi
英特尔目前正在为服务器和深度学习目标市场发布新的插槽,新插槽的尺寸令人惊讶,它几乎是 LGA 2011-3 的两倍大小。
LGA 3647 旨在支持新的 Xeon Phi CPU-Knights Landing,这颗 CPU 配备 16 GB 的 3D MCDRAM(一种类似于 HBM 的英特尔专属 3D 内存)和 72 个增强型 Silvermont 核心(兼容 Haswell)、多增加了 2 个 AVX 512 位 VPU,这个 CPU 尺寸不小,还配备了 6 个 DDR 通道。
这个 CPU 能够在二进制级别上兼容 Haswell,基本上能够自动地以套接字或协处理器模式运行,大大提高了英特尔解决方案的计算能力,它同时采用了 4 SMT 架构,可以在每个核心上运行四个线程,也进一步增强了计算能力。在协处理器目标应用市场,该方案正面临来自英伟达的竞争威胁,AMD 同时也要在 2017 年中发布其基于 Zen 和 GCN 架构、集成 HBM 模块的企业级 APU 进入这个市场。不过,考虑到核心数量预计提升不多以及性能差异不大,很难想象 AMD 于 2017 年发布的新产品会给英特尔现有的产品带来多么强的竞争压力。由于热功耗的限制,集成了 GCN GPU 和 HBM 模块的 Naples CPU 不会实现太大的性能提升。因为,Naples CPU 的总设计功耗预计为 150W。事实上,有传言谈到一个搭载北极星架构 GPU 的 16 核心版本 Naples,它能够在 32 位下实现 4 TFLOPS 的运算能力,想挑战英特尔具备完全自主优势,32 位运算能力能达到 6 TFLOPS 的 Knights Landing,这个指标有点太低了。而且,AMD 这款产品只有 32 个线程、4 个 DDR 通道,英特尔的 Knight Landing 则有 288 个线程、6 个 DDR 通道,所以这款传言产品和英特尔的目标市场在本质上是不同的,而且 AMD 的 APU 不能使用集成 GPU 运行一些通用的线程,通用线程是在 CPU 上运行的。
我们还必须考虑到,英特尔将在 2017 年年底和 2018 年之间发布其 10 nm CPU,而基于 10 nm 光刻技术的 Knights Hill 和 Knights Mill 也将在 2018 年推出,这将再次带来一贯的性能升级。
相反,AMD 将在 2018 年年底发布其 12nm 产品,2019 年年底发布 7nm 产品。
此外,英特尔将把 LGA 3647 插槽用于 Skylake 处理器,这就意味着有可能出现比传闻的 26-28 核心数更多的 CPU 版本,这意味着 Naples 核心数量的相对优势有可能不存在。Skylake 还将集成 100G OmniPath 互连、AVX 512 指令集、Cannonlake 图形,并将在收购 Altera 之后第一次集成 FPGA:这将是一个性能出色的组合,肯定会吸引许多客户。
Naples 的 L3 高速缓存问题
另一个必须强调的事情是 L3 高速缓存问题:最新的基准测试结果显示,Naples 每个 CCX 配备了 64MB L3 缓存,这就意味着每个 CPU 提供惊人的、高达 512MB 的 L3 缓存,各个网站都对这个巨大的数字很兴奋,但是,这个数据有可能是完全错误的。
这可能是由 Geekbench 的一些读取错误引起的,考虑到缓存是完全共享的和包容的,这种错误也是很容易解释的。Naples 基于 Zen 架构,考虑为每个核心使用 2MB 的 L3 缓存,每个 CCX 有四个核心,Naples 由 8 个 CCX 组成,可以得出 L3 缓存的大小总共为 64MB。关于这个问题,考虑到 Geekbench 做基准测试的架构不是 AMD 官方提供的,所以很容易遇到这些程序错误。
此外,从制造工艺的角度,如果我们使用英特尔密度更高的 14nm 光刻技术构建 512MB 的 L3 缓存,裸片尺寸几乎就要达到 1000mm2,这还仅仅是用于 L3 缓存的:这种尺寸几乎是英伟达 GP100 裸片尺寸的两倍。我们还没有考虑其他组件,如 32 个 CPU 内核、指令高速缓存、多媒体解码器和编码器、4 个内存控制器、其他控制器等。单从制造上来讲,这基本上是不可行的,而且非常昂贵,这种大尺寸高速缓存的可用性也是很值得质疑的。
要点
尽管 AMD 的 Naples 和 Snowy Owl 距离正式发布还有很长一段时间,但是考虑到这些基准测试结果,拿它来对标英特尔即将发布的新解决方案是不合适的,至少现在看来是这样。
的确,这些只是初步的基准测试结果,但是考虑到 Naples 使用的是在未来三四个月就要上市的 Zen 架构,它不可能那么落后于既定的发展路线图。
Snow Owl(企业级 APU)仍然没有基准测试结果问世,但是看起来它也不会提供多么强大的性能。它将有 16 个核心,并将配备 HBM 模块以及等价于实际的北极星 10 之类的模块,以实现 32 位下的 4+ TFLOPS 性能。用它来对抗传统的 Xeon CPU 或 Knights Landing 有点太不自量力了。英特尔的 Knights Landing 集成了 3D MCDRAM、6 个 DDR 通道、6+ TFLOPS 32 位运算能力、72 个核心、288 个线程,而且因为与 Haswell 二进制兼容,所以能够利用对 Haswell 的每次优化。这就够 AMD 喝一壶的了,更不用说具有 6 个 DDR 通道、集成 FPGA、英特尔 OmniPath 的 Xeon Skylake,或者预计将在 2018 年上市的 Knights Hill/Knights Mill 组合了。
AMD 可能真正给英特尔制造麻烦的是在消费级 APU 市场,那些客户想用集成显卡玩中低级别的游戏,并获得良好的图形效果。AMD 可以发布集成单个 HBM 模块的 Raven Ridge 解决方案,实现 128 GB/s 的视频内存带宽和 768 个 GPU 内核。问题是,要发布的 APU 的 TDP 必须在 45W 以下,将集成 4 个 CPU 内核,而且 HBM 模块也会发热并消耗一些功率,这意味着 GPU 进行图形运算的 TDP 最大为 20-25W。因此,集成 GPU 可能需要在 1G+Hz 左右的频率下提供 1.5+ TFLOPS 的 32 位计算能力。
例如,运行游戏《古墓丽影 - 崛起》的独立显卡 M385X:在 Notebookcheck 进行的测试中,它在 FHD 中的分辨率接近 20 fps,但未来的集成显卡可能实现 M385X 约 0.85 倍(考虑到架构改进)的性能,分辨率约为 17 fps。在同等的条件下,英特尔现在的高清显卡的得分为 12.2 fps,两者差距不是很大。考虑到 Kaby Lake 显卡能够在图形性能上提升大约 20/40%,所以这两种顶级 APU/SOC 之间差异不会很大。 无论如何,这才是 AMD 可能与英特尔一较高下的领域,也是 AMD 必须集中精力的所在,因为笔记本电脑市场可能会带来一些积极的战果。
更多有关 AMD 的资讯,欢迎访问 与非网 AMD 专区
与非网编译,未经许可,不得转载!