电子产品通常都是越用越不值钱,但现在有一个例外,那就是显卡。当显卡已经成为了理财产品的现在,英特尔推出了自己首个针对游戏应用的“Arc锐炫”独立显卡系列,首款产品名为Alchemist炼金术师。
英特尔此时进军独显市场,是基于怎样的考虑?英特尔的新一代独立显卡,在技术上有哪些独到之处?特别是为何在显卡里集成了大量AI加速引擎?它会对现在的显卡市场造成怎样的改变?今天的文章我们就一起来看一下。
ARC是谁
在去年九月的架构日活动里,英特尔就深度披露了关于ARC的许多技术细节,特别是它针对游戏应用的Xe HPG微架构。在今年一月的CES大会上,英特尔又进一步展示了ARC的更多内容和最新进展。
英特尔在GPU的架构上是有不少技术积累的,至少在集显领域,大部分的英特尔CPU产品都搭载着自家的Iris集成显卡。因此,看着Xe HPG的微架构,我们会在某些细节处感受到一些似曾相识的感觉。
但作为一款可扩展的、为游戏这一应用场景深度优化的独立显卡,它终究是基于一种完全不同于前辈们的设计理念。
首先,Xe内核(Xe-core)取代了此前集成显卡架构中的EU(Execution Unit)的概念,成为了Xe HPG架构中最基础的执行单元。每一个Xe内核中都配置了数量可观的运算单元,包括16个256位的矢量引擎和16个1024位的矩阵引擎。矢量引擎主要负责包括传统的图像处理在内的计算任务,而矩阵则是为了加速AI运算。
为什么显卡内核里要集成AI加速单元呢?这个和游戏又有什么关系呢?先卖个关子,咱们先继续看架构。
再往上看,每4个Xe内核组成了一个Rendering Slice,也就是"渲染切片",这个单元在Xe内核的基础上增加了针对DX12 Ultimate的优化、用来做实时3D渲染的硬件。每个切片还配备了四个硬件光追单元,以支持实时的光线追踪技术。
追求极致游戏体验的小伙伴一定对光追技术并不陌生,因为其应用能够显著地提升那些3A大作的画面和光影效果。既然沉浸式的游戏体验已经离不开光追,为游戏而生的Xe HPG自然没忘了提供相应的硬件支持,这也是它和其他Xe微架构的最主要区别。
此外,Xe HPG当然也没忘了其他主流的图形技术,比如网格着色、采样器反馈等,我们也能在渲染切片中找到相应的硬件支持。
Xe HPG最大的特点就是灵活。每个Xe HPG都有一个大的二级缓存,由多个渲染切片共享,最多支持8个。这样的结构可扩展性很强,一方面,根据切片的数量的不同,产品线变得更加丰富,用户有更多的选择。另一方面,这样的连接方式也使得多张显卡的协同工作成为可能。
怎么样,是不是有种格局打开了的感觉?
根据英特尔的数据,Xe HPG在同等电压下的频率是XeLP独显的1.5倍,同时每瓦性能也比XeLP提升1.5倍。
英特尔独立游戏显卡的品牌名是Arc,中文名叫英特尔锐炫。其中Alchemist炼金术师是它的第一个产品,将于今年一季度上市。之后三款产品的代号都按ABCD字母表的顺序排列,分别是Battlemage战斗法师,Celestial天神,Druid德鲁伊。
AI如何改变游戏?
说起游戏体验,帧率和分辨率也许是大部分玩家最为关注的两个因素,它们分别决定着画面的流畅感和清晰度。
尽管帧率和分辨率不是非此即彼的关系,但很多时候都是不能两者兼得的。
打个比方,如果GPU是一家餐厅的大厨,那么帧率就好比是上菜的速度,分辨率则是菜品的质量。如果顾客对于上菜的速度的要求非常高,那么大厨显然就没有充足的时间把一道煮白菜按照国宴标准的开水白菜去料理。同样的,如果顾客认定了非要吃国宴,那也就得老实待着,别指望能在短时间内吃上。
对于游戏来说也是这样:想体验细节拉满的画面?复杂的渲染任务很可能让帧数嗖嗖地往下掉。
但是作为成年人,自然是不会满足于做单选题。这个时候就需要人工智能AI的帮助了。为了解决帧率和分辨率不可兼得的问题,英特尔推出了一个名叫XeSS、也就是Xe超采样的技术。它的本质是一种图像升级技术,可以通过充分地提取和利用已有的图像信息,去预测未知的信息,而不是通过渲染来精确计算。这样既能保证帧率,又能大幅提升分辨率。
这里的图像信息,来源主要有两个 :一个是相邻像素点中蕴藏的、空间维度的信息;另一个是多帧图片展示出的动态过程中的时间维度的信息。神经网络模型利用这两种信息,对像素的细节进行重构,在有效地缩短了处理时间的前提下一样能够得到接近于渲染效果的高分辨率画面。
回到我们做菜的例子,AI就像是一颗"浓汤宝",让大厨能够只花煮一棵白菜的时间便料理出如假包换的国宴口味。
还记不记得前面提到Xe里集成的AI矩阵引擎,它们也正是为了支持像XeSS这样技术的应用。
在年初的CES上,英特尔给出了一段demo,对比了运行于英特尔锐炫显卡上的《裂缝破坏者》这款游戏在XeSS开启前与开启后的画面。虽然我们没有拿到定量的对比数据,但是XeSS在丰富画面细节方面的效果确实是肉眼可见的。
目前,支持XeSS技术的游戏还有《杀手3》、《死亡搁浅》等等大作,英特尔也在紧锣密鼓地与多家游戏工作室合作开发游戏与引擎。
和友商的DLSS技术相比,XeSS还放了一个大招,那就是开源支持DP4a指令集的版本以及SDK。这意味着,我们可以期待在未来看到大量的硬件平台都能采用并受益于XeSS技术:不管是独显还是集显、来自英伟达还是AMD,只要硬件支持DP4a指令集就可以使用这种基于AI的超采样技术。
我觉得这样开放的态度会是开发者和用户都乐于看到的,而这也很可能成为XeSS这位后浪与DLSS这位老师傅分庭抗礼,甚至是后来居上的关键一招。
百宝箱:DeepLink
前面说的都是针对Arc GPU本身的优化,但别忘了英特尔还有12代CPU、还有CPU上的集显。为了充分利用所有硬件的性能,英特尔还提出了一个名叫Deep Link 的技术。
事实上它并不是具体某种单一的技术,而是包含了一系列技术在内的软件架构,目的是把系统中不同的处理器和硬件协调起来、让它们以整体的思维去完成处理任务,从而更充分地释放出所有硬件的性能。
你可以把它想象成哆啦A梦的口袋,里面有各种解决问题的道具。
游戏是GPU的主战场,但GPU也同样可以用在很多领域,除了你们想的那个(wakuang),还有很多创作类的工作也离不开GPU。很多人都认为视频剪辑只是少数人的需求,但现在越来越多的人做UP主,网上视频内容越来越多,背后其实都是对视频编辑渲染算力的需求。
但是视频渲染导出的时候,需要执行大量的编码任务,所以每次都要等很久。但在传统的系统中,即使配备有多个GPU,编码任务往往只会交给其中一个,这显然是对硬件资源的浪费。所以英特尔Deep Link这个大口袋里,就有一个名叫HyperEncode超编码的技术,它可以把编码工作将被自动地分配给多个GPU。
比如你的电脑上有一个Iris集成显卡和一张Arc独立显卡,通常情况下编码任务会交给独显完成,此时集显没事做。但开启超编码之后,集显和独显同时高负荷运行。通过两者的协同工作,编码速度提升了约1.4倍。
除了HyperEncode之外,DeepLink还有一个名叫"动态功率共享(Dynamic Power Share)"技术。也就是根据实际的复杂,分配给CPU 和GPU的功率将处于一个动态变化的过程中,从而实现整个系统的性能的最优化。
总的来说,Deep Link的目标就是系统中所有硬件的深度连接,避免单打独斗,而是以整体的思维去完成运算任务。在单个芯片的性能提升到极限之后,进行多个芯片的协同优化就成了非常自然的选择。
从GPU,看英特尔的破局之路
我知道对于显卡,特别是对于高性能的游戏显卡,绝大部分人可能并不关心技术。特别是在一卡难求的大环境下,英特尔进军独立显卡业务,其实抓住了很好的时机。
他并不需要一上来就提供完美的产品,而是可以根据当前市场的痛点,给消费者提供价格公道性能够用的产品就可以了。然后不断迭代,并且一步一步构建起自己的生态,比如前面说的DP4a的开源,都符合这个思路。
值得一提的是,ARC由台积电6纳米工艺代工,很多人会有产能的担忧。但英特尔的这步棋走的有点绝,一方面继续挤压了友商的产能,另一方面自己的产能也在不断铺开,之前的文章也分析过,IDM2.0已经成了英特尔最重要的战略方向。
这有点像玩星际的时候的偷矿战术,玩到最后大家才发现,产能和资源才是最终的王道。
(注:本文仅代表作者个人观点,与任职单位无关。)