前言:
在一个对壁仞科技最为关键的节点期,与上海封控同一时间的3月31日,壁仞第一款通用GPU芯片BR100系列点亮成功。
而近日BR100的正式发布,标志着全球通用GPU算力纪录第一次由一家中国企业创造,中国的通用GPU芯片正式迈入[每秒千万亿次]计算新时代。
作者 | 方文 图片来源 | 网 络
创造全球通用GPU算力纪录
壁仞科技BR100这款芯片创出全球算力纪录,峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。
是国内率先采用Chiplet技术、率先采用新一代主机接口PCIe 5.0、率先支持CXL互连协议的通用GPU芯片。
16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。
性能方面,1024 TOPS INT8、512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32;
可实现2.3TB/s外部I/O带宽,支持64路编码、512路解码等;
号称在FP32(单精度浮点)、INT8(整数,常用于人工智能推理)等维度,均超越了国际厂商最新旗舰。
同时也发布了BR100系列的另一款产品BR104,该款芯片同样基于壁立仞架构,拥有1个计算芯粒,性能约为BR100的一半,同样超越了国际厂商的在售旗舰产品。
最底层支撑来源于自主芯片架构
BR100之所以能够实现国际领先的算力,最底层的支撑来源于自主原创的芯片架构[壁立仞]。
壁立仞架构以数据流为中心,对数据流进行深度的优化,比较完整地解决了数据搬移的瓶颈和并行度不足的问题。
壁立仞架构有6大特性:TF32+数据流精度、TDA数据流存取加速、C-Warp数据流并行、NME减少数据搬移、NUMA/UMA减少数据搬移、SVI数据流隔离。
采用了Chiplet的设计理念,让芯片总面积可以突破光罩尺寸对单芯片面积的限制,集成更多的算力和通用性逻辑。
通过缩小单个计算芯粒的面积,还可以同时提升产能与良率,进而极大地降低硅片的成本,并支持更灵活的产品策略。
努力构建AI芯片的生态体系
算力对于数字世界、物理世界的融合和共同发展,具有巨大的作用,建立国产的GPGPU和AI芯片的生态非常重要。
如果能建立一个相对统一的生态,让更多的用户进行这个编程和应用,对芯片的厂商将是一个重大的利好。
对于一家初创公司而言,建设生态的周期非常长,投入也十分巨大,所以壁仞科技也会兼容目前主流的GPU生态,与客户现有的基础设施做到高度的兼容,方便客户的迁移。
目前,壁仞科技与浪潮信息共同开发了搭载了BR100的OAM服务器[海玄]。
该服务器可以提供高达8PFLOPS(8000万亿次每秒)的浮点峰值算力,超过普通8卡加速计算设备的能力。
除了研发大算力芯片之外,也提供软硬一体的解决方案,自主研发的BIRENSUPA软件平台构建在BR100系列产品的底层硬件之上。
由驱动层、编程平台、框架层、应用解决方案构成,支持各类应用场景。
从芯片到板卡模组到服务器,以壁砺100和壁砺104为底座,壁仞科技形成了一条完整的数据中心加速计算产品线。
对标英伟达最新GPU的底气与距离
壁仞的BR100对标的是英伟达采用4nm工艺技术打造的H100。
对比英伟达的 Hopper GPU,后者采用台积电4nm工艺制造,集成多达800亿晶体管。
英伟达今年发布的最新GPU H100,采用的是专为英伟达加速计算需求设计优化的TSMC 4N 工艺。
集成800亿个晶体管,显著提升了AI、HPC、显存带宽、互连和通信的速度,并能够实现近5TB/s的外部互联带宽。
20个H100 GPU便可承托相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。
英伟达的GPU之所以能制霸全球,强大的的CUDA生态系统绝对是重要关键。
可见,芯片的算力性能只是一方面。
对于通用GPU产品来说,最终的应用情况以及在软件生态方面是否对开发者、合作伙伴友好也是决定其最终发展前景的重要一环。
对于一家初创公司来说,想要超越英伟达最新的H100 GPU,挑战十分巨大。
抛开其它因素,仅看一些关键参数,就能看到两者之间的差距,以及想要超越的难度。
结尾:
从硬件到软件再到应用,壁仞科技已经正式交出了首款产品的答卷,接下来就要接受市场的检验了。
部分资料参考:芯基建:《壁仞科技三年造出首款通用GPU,采用7nm工艺,对打英伟达4nm性能》,问芯Voice:《壁仞推出全球最大算力芯片,号称以7nm超越英伟达4nm最新GPU》
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。
END
推荐阅读:
商务合作请加微信勾搭:
18948782064
请务必注明:
「姓名 + 公司 + 合作需求」