CPU 2.0时代来了？Flow PPU可使任何CPU性能提升100倍！

6月13日消息，近日芬兰著名的 VTT 技术研究中心旗下的一家科技初创公司Flow Computing宣布一则爆炸性的声明称，其推出的并行处理单元 (PPU)可以“使任何 CPU 架构的性能提高 100 倍”！

据介绍，Flow的FPU能够集成到任何当前已有或即将推出的CPU设计架构、指令集或工艺几何结构中，可提供革命性的 100 倍加速，可立即用于基于冯·诺依曼的标准计算机设计，以实现“CPU 2.0”级别的吞吐量。PPU还消除了在高性能应用程序中对 CPU 指令使用昂贵的 GPU 进行加速的需要。

Flow称，片上集成的 PPU 内核越多，获得的性能提升就越高。同时，SoC当中的其他计算单元也将受益于PPU的性能的提升，以及PPU对CPU性能的提升。

此外，通过Flow提供的编译器对 PPU 进行重新编译，PPU 与该 CPU 架构的每个现有软件应用程序可完全向后兼容，可以大大加速所有现有软件和应用程序中的现有并行功能，而无需更改任何软件。

从应用来看，Flow的突破性架构将可增强嵌入式系统和数据中心的性能，适用于边缘和云计算、AI 云、跨 5G/6G 的多媒体编解码器、自动驾驶汽车系统、军用级计算等用途。

目前，Flow 已经在与来自世界各地的主要半导体供应商进行初步讨论，以寻求下一代 CPU 性能的“圣杯”。更多技术细节将在 2024 年下半年公开分享。

Flow Computing联合创始人兼首席执行官Timo Valtonen表示：“在过去的几十年里，CPU性能只有渐进式的改进，这导致了CPU实际上已成为计算中最薄弱的环节，因为它的顺序架构并不理想。为了满足对更多计算性能的不断增长的需求，CPU性能的新时代已成为必要条件，这在很大程度上是由人工智能以及边缘和云计算的需求推动的。Flow 打算通过其全新的并行性能单元（PPU）架构引领 SuperCPU 革命，使任何 CPU 的性能提升 100 倍，无论架构如何，并具有完全的向后软件兼容性。”

Butterfly Ventures的合伙人兼联合创始人Juho Risku也表示：“由于CPU改进速度在过去十年中放缓，科技行业的每个行业都继续受到影响。Flow 是这一趋势的第一个重大变革者，它提供了数倍的性能，而不是几个百分点。而且在我们看来，Flow 将对计算市场的基线性能产生比量子计算等更广泛的影响。尽管很多公司在人工智能方面投入了大量资金，但通用计算将主导其成本并限制其能力。Flow Computing正在通过使下一代SuperCPU轻松超越当前的行业领导者，如Apple M系列，Nvidia Grace，Google Axion和Microsoft Azure Cobalt 100来解决这个问题，“

据悉，Flow公司刚刚获得了 400 万欧元的种子轮融资。参与种子轮融资的实体包括Butterfly Ventures（领投）、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬兰商务促进局。

一、什么是并行处理单元？

据Flow公司官网介绍，并行处理单元（PPU）是一个 IP 模块，可以与同一芯片上的 CPU 紧密集成。它被设计为高度可配置，以满足众多用例的特定要求。

支持的自定义选项包括：

PPU 中的内核数（4、16、64、256 等）

功能单元的数量和类型（如 ALU、PPU、MU、GU、NU）

片上存储器资源（缓存、缓冲区、暂存器）的大小

对指令集进行了修改，以补充 CPU 的指令集扩展

对 CPU 的修改很少，包括将 PPU 接口集成到指令集中，并可更新 CPU 内核的数量，以利用新的性能水平。

Flow的参数化设计允许广泛的定制，包括 PPU 内核的数量、功能单元的种类和数量以及片上存储器资源的大小。性能会随着 PPU 内核数量的增加而增加。4 核的 PPU 非常适合智能手表等小型设备，16 核 PPU 非常适合智能手机，而 64 核 PPU 可为 PC 提供出色的性能；256 核 PPU 最适合 AI、云和边缘计算服务器等高需求环境，使它们能够轻松处理最苛刻的计算任务。

二、拥有三大核心优势

据介绍，Flow的并行处理单元 (PPU)具有三大核心优势：

1、Flow 创新的并行处理单元（PPU）将 CPU 性能提升 100 倍，开创了 SuperCPU 时代。

创新的并行处理单元（PPU）专为完全向后兼容而设计，可在重新编译后增强现有软件和应用程序。功能越并行，性能提升就越大。

同时，Flow的技术还增强了整个计算生态系统。比如，辅助组件（矩阵单元、矢量单元、NPU 和 GPU）也可通过增强的 CPU 功能获得了增强的性能。这一切都要归功于 PPU。

2、传统软件和应用程序速度提高 2 倍

Flow 的 PPU 不仅可以在不改变原始应用程序的情况下增强遗留代码，而且在与重新编译的操作系统或编程系统库配对时也能提高性能。

因此，PPU可以帮助各种应用程序中大幅提高速度，特别是那些显示并行性但受到传统基于线程的处理限制的应用程序。PPU 释放了这些应用的全部潜力，而在以前的架构终无法实现这样的性能显著提升。

3、参数化设计

可配置的参数化设计使PPU能够适应多种用途。一切都可以定制，以满足多个用例的特定要求。PPU 内核数支持4核、16核、64核、256核或更多功能单元（如 ALU、PPU、MU、GU 和 NU）的类型和数量。甚至片上存储器资源（缓存、缓冲区和暂存器）的大小也可以根据特定要求进行定制。性能的可扩展性与 PPU 内核的数量直接相关。

三、100倍的CPU性能提升是如何实现的？

那么，Flow公司是如何通过其PPU来实现对于CPU性能100倍提升的呢？据介绍，Flow解决了 CPU 面临的延迟、同步和虚拟级并行性方面的挑战，在这些技术中的创新和关键专利被实施到 PPU 中，它们将共同推动CPU实现 100 倍的性能提升。

1、延迟隐藏

当前冯·诺依曼架构的多核 CPU面临内存访问延迟问题，尤其是共享访问，对多核 CPU 来说是一个巨大的挑战。频繁的内存存取会减慢执行速度，核心间通信网络会导致额外的延迟。传统的缓存层次结构会导致一致性和可伸缩性问题。

Flow公司的PPU则是将内存引用的延迟，通过在访问内存时执行其他线程来进行隐藏。这没有一致性问题，因为没有缓存放置在网络的前面。可扩展性通过高带宽片上网络提供。

2、同步

当前多核 CPU使用并行性会带来额外的挑战。由于 CPU 处理器内核固有的异步性，每当存在线程间依赖关系时，就需要同步线程。这些同步代价很大，通常需要 100 到 1000 个时钟周期。

相比之下， PPU每个步骤只需要同步一次，因为线程在一个步骤中彼此独立，将开销成本降低到 1。同步与执行重叠，将开销成本降低到 1/100。

3、虚拟ILP/LLP

当前多核 CPU对低级并行性的次优处理。只有当指令是独立的时，才能在多个功能单元中执行多个指令。管道危险会减慢指令执行速度。

相比之下，PPU功能单元被组织为一个链，其中单元可以使用其前身的结果作为操作数。可以在执行的一个步骤内执行依赖代码，消除管道危险。

四、提升现有软件和应用程序的性能

Flow技术完全向后兼容所有现有的传统软件和应用程序。PPU 的编译器会自动识别代码的并行部分，并在 PPU 内核中执行这些部分。

此外，Flow 正在开发一种 AI 工具，以帮助应用程序和软件开发人员识别代码的并行部分，并提出简化这些部分以实现最大性能的方法。

小结：

虽然Flow表示其PPU能够为任何当前的冯·诺依曼架构的CPU带来最高100倍的性能提升，但是并未给出明确的指标数据来进行解释，只是说明了会从延迟、同步和虚拟ILP/LLP等方面进行入手来进行改进。并且正如其官网所介绍的，PPU还拥有4到256核的配置，需要配备多少核PPU才能带来100倍性能提升，Flow并未解释。另外，软件的重新编译也是实现 100 倍性能改进的必要条件。该公司表示，软件的重新编译可以使得现有代码的运行速度将提高 2 倍。

另外，PPU是并行处理单元，而GPU的优势也是在于并行计算。Flow甚至还表示，PPU消除了在高性能应用程序中对 CPU 指令使用昂贵的 GPU 进行加速的需要。那么是否意味着，CPU+PPU的组合在某种程度上可以实现超越GPU的AI加速能力？

Flow还在一份常见问题解答文档中解释了其 PPU 与现代 GPU 之间的主要区别。“PPU 针对并行处理进行了优化，而 GPU 针对图形处理进行了优化。”这家初创公司对比称：“PPU 与 CPU 的集成度更高，你可以将其视为一种协处理器，而 GPU 是一个独立计算单元，与 CPU 的连接更为松散。”它还强调了 PPU 不需要单独内核及其可变并行宽度的重要性。

Flow表示，它将在今年下半年提供有关PPU的更多技术细节。至于Flow PPU的商业化进展，它提到了与 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 强调了其对 IP 许可模式的偏好，类似于Arm的授权模式，客户需要付费获取其PPU IP，以便嵌入到其CPU设计当中。

编辑：芯智讯-浪客剑