移动GPU混战，英特尔和Nvidia互亮杀招

Nvidia X1功耗普遍被认为是10W，但实际可能只有5W左右；
跟最新的GPU比，它的性能仍属上乘；
移动游戏需要进行大量FP16运算，这点对Nvidia和英特尔架构是不利的；
新的Nvidia架构和英特尔的驱动器将能驱动2倍的FP16运算，同时有更好的能效表现；
如果Nvidia能卖得更便宜，英特尔和Nvidia还有筹码可以赌一赌。

大家可能认为Nvidia已经退出移动领域的竞赛，尤其当它凭Shield Android TV在主流电视机顶盒市场上一枝独秀。与此同时，英特尔一直在智能手机领域苦苦挣扎，仅在华硕Zenfone 2手机上成绩不错。Nvidia最新Tegra X1产品以显著的功耗为代价实现了极佳的图形处理性能，但英特尔在类似GFXbench这些产品中却表现欠佳。相反，如果采用典型X86架构，这些SoC的表现通常很好。

基于这个问题的特殊性，来分析下英特尔和Nvidia架构的内部特性，我们有一些有意思的发现：

Nvidia Tegra X1的功耗

首先，Tegra X1明显被低估了。通常在Shield Android TV中Tegra X1被当作功耗10W的SoC来采用，但实际上这颗SoC功耗应该更低。

Nvidia出示了一份测试报告，采用一个小的散热片来处理近5W的热源，复制了平板电脑的热表现。Nvidia表示，相同条件下，与苹果的A8X相比，X1可以实现每瓦80%的性能提升。这样考虑到A8X仅有4~5W TDP，同时考虑到各种基准值，Tegra X1有10W TDP是不太可能的。此外，Nvidia声称X1 GPU以最高速度进行1024 GFLOPS(FP16)运算时功耗仅为4W（GPU处理游戏时，CPU负载和功耗很低，所以5W功耗是可信的）。

要知道Tegra K1是基于Kepler，而X1则基于Maxwell。X1采用20nm工艺，Cuda核增加了33%同时GPU频率也提升了17%。考虑到与Kepler架构相比，Maxwell架构每瓦性能有了大幅提升，以及更先进的工艺节点可极大降低功耗，很明显，X1和K1应该有相近的功耗表现（K1是一颗5W TDP SoC）。

Anandtech表示，当Nvidia Shield Android TV要运转一些大型游戏时功耗为19.4W，这也是大家会认为这款SoC的功耗约为10W的原因。但在这种情况下还要考虑到如下一些因素：

如果是80Plus规格的电源，大概要损失20%的效率，意味着实际器件功耗约为15W；
如果AC转换器输出电压不够低，转换过程中主板会产生额外的功率损耗；
相对于智能手机的逻辑主板，带有众多连接器的大型主板会拉高功耗；
以太网端口的存在；
BT模式激活；
WiFi AC模式激活以及负载过轻；
HDMI 4K线缆连接和激活；
测试中2~4.5W SDD的连接和使用；
NAND 存储器在工作；
散热风扇。

还要考虑到Shield内的WiFi和BT模块会比一般的移动模块消耗更多的电量，因为不受电源寿命的限制。基于这些因素，大家应该会同意X1的功耗远低于10W。

如果SoC开始工作时的温度比较低，它的功耗可能会超过TDP的额定值，通常为TDP的1.5倍（大约为7~8W），如果散热系统足够好，SoC在全速运转下可能要花相当长的时间才能回复到正常的TDP。因为散热片被连接到一个厚的导热管和一个活跃的散热风扇，X1很可能发生上面的情况：用一根活跃的散热管来冷却一个5W的CPU，这样一个系统将保持全速、极低温度以及低功耗。

说得更清楚些，即如果SoC在80℃下全速运转时功耗为5W，那么在60℃下全速运转时功耗只会更低。

这意味着什么？X1很有可能比我们此前想象的更高效，那么接下来的讨论就有意思了。

FP16/32对移动和PC/控制台的支持
对实际游戏而言浮点运算是很有意思的一个技术。通常，计算机和游戏控制器主要基于FP32运算，这一运算属于耗电大户，同时相比FP16效率更低但也更加精准。移动端的游戏标准则不同，通常采用大量的FP16运算，因为FP16运算功率利用率更高，非常适用于功率受限的应用。它一个明显的问题是精密度不够高，但对于一般游戏和小屏而言这点不构成问题。

如3DMark这样的计算机游戏基准测试套件，更多关注在FP32运算上，而像GFXBench这样主要针对移动游戏领域的基准则比较关注FP16运算。

此外，Android UX也采用一些FP16运算，因此FP16在移动设备中利用率较高。那么问题来了。

GPU FP16支持场景
Nvidia X1 GPU采用Maxwell架构，源于笔记本，意味着在其Cuda核中并没有FP16单元。针对这一问题，Nvidia采用了双速FP16解决方案，让FP16运算仅在有限的应用场景下发挥作用。
通常一款无FP16支持的GPU会在一个FP32单元中集成一个FP16运算单元，FP32单元完成运算，然后转换返给FP16单元，这样会消耗很大电量并占用带宽。X1的替代方案是采用两格FP16运算单元，但仅在特定条件下工作并且要求两个运算单元要完全一致。这让X1可执行远高于512 GFLOPS FP16的运算，但在实际应用中无法达到1024 GFLOPS的运算能力。

在下一代架构即Pascal中将提供真正的FP16单元，让移动游戏实现更低功耗及更高性能。如果考虑到X1功耗约为5W，则意味着Nvidia推出的产品在智能手机领域将具有很强的竞争力。

再关注下英特尔。英特尔的图形产品同样存在FP16运算单元的问题。吊诡的是其架构应该可以支持FP16运算，无奈驱动开发有些落后，没有考虑到移动环境的特殊性。

这对英特尔意味着什么？英特尔图形处理器只能将FP16运算当作FP32运算来用，损失了一半性能，看下实际的移动性能表现，我们会发现英特尔图形处理器产品在移动终端上的性能表现确实很差。

上表可以看到几款移动GPU的实际性能。可以看出FP32性能较好的SoC产品在3DMark测试中表现都很好（PC基准），但在GFXBench（移动基准）中就很差。英特尔的产品在GFXBench中表现相对较差而在3DMark中就很好。Nvidia产品则表现出更好的平衡性，应该是因为其架构更适用于移动环境。而苹果A9在能耗方面相对于A8表现则较差。

结论
Nvidia致力于在下一代架构中加入FP16单元来改善能效表现，同时实现更高性能并产生更少热量。如果我们关于Tegra X1的分析是正确的，可以说X1仍颇具竞争力，而Nvidia下一代采用Pascal架构的产品在图形处理市场上将成为一个强有力的竞争者。可以看下Pixel C的性能表现，这款产品采用Tegra X1，为了实现20~30%的功耗降低，其性能表现打了10~20%的折扣。
对于英特尔，同样存在驱动的问题，当它运行在FP32图形测试环境，是极具竞争力的。如果运行FP16来进行32位指令操作则才存在很大的能效障碍，还好英特尔已经在着手解决这一问题。
Nvidia和英特尔将大幅提升其产品在移动图形处理领域的每瓦性能。接下来的几年，如果Nvidia或英特尔在移动领域实现低功耗从而获得领先地位，我一点都不感到奇怪。此外，Nvidia努力让其Tegra X1产品被谷歌Pixel C采用，这也是对其旧款但也是很好的SoC产品的品牌宣传。基于这些分析，我要重申Nvidia在移动市场仍将有所表现。谷歌已经对Nvidia做出了肯定，接下来在智能手机领域提供一些低功耗SoC相信也不是难事。

对于英特尔，这家公司在接下来的几年都不会停止在移动市场上的努力。英特尔正在Phablets上测试Core M架构以开发出一款高端移动SoC，同时他们也在下一代Atom处理器中移植Skylake和Kaby Lake处理器的创新技术。此外，英特尔也在开发对FP16运算的驱动支持以大幅提升移动图形处理的性能。同时，SoFIA处理器将在2015年底和2016年发布，可以期待英特尔将在接下来的几个月和几年里赢得一些市场，尤其是在中低端市场。

更多有关GPU的资讯，欢迎访问与非网GPU专区

与非网编译，未经许可，不得转载！

移动GPU混战，英特尔和Nvidia互亮杀招

相关推荐

电子产业图谱