众所周知,随着非市场因素的不断变化,中国相关产业和企业在发展AI的过程中,获得和使用英伟达AI芯片的限制越来越多。那么问题来了,除了英伟达之外,中国是否具备自主替代的能力?近日,媒体频频报道称,海光信息的DCU有望成为英伟达芯片最佳替代者。
事实真的如此吗?如果是,在替代的过程中,海光信息又面临怎样的机遇和挑战?
海光DCU系列产品以GPGPU架构为基础,兼容通用的“类CUDA”环境以及国际主流商业计算软件、人工智能软件,可广泛应用于大数据处理、人工智能、商业计算等领域。
值得一提的是,与目前全球主流人工智能企业都在使用的英伟达A100产品相比,海光信息DCU的第一代产品海光“深算一号”生产工艺同为7nm制程,内存频率和显存位宽与A100基本相当,显存容量、显存带宽和显存频率相当于A100的50%左右,差距比较大的是多卡协同的交互速率,只有A100的30%。总体来讲,海光“深算一号”的性能应该能达到英伟达A100的40%以上水平。
海光信息于2023年第三季度发布的“深算二号”性能相对于“深算一号”提升100%以上,据此估计,此款产品性能至少已达到A100的80%,等到正在研发中的“深算三号”上市,其赶上甚至超越A100应该没有太大问题。
虽然单纯从性能来看,最新的“深算三号”可以达到甚至超越A100的水平;但事实上,发展AI芯片不仅关乎硬件,还关乎软件生态。一类芯片可能无法支持所有现有的深度学习框架和算法,这将限制芯片的应用范围。
具体到GPU,由于当前全球主流深度学习框架均使用CUDA平台进行开发,国产GPU可以通过兼容CUDA的部分功能,快速打开市场,降低开发难度和用户移植成本。然而,CUDA本身涵盖功能非常广泛,且许多功能与英伟达GPU硬件深度耦合,包含了许多英伟达GPU的专有特性,这些特性并不能在国产AI芯片上全部体现。
有观点认为,海光DCU并不适合做训练,尤其不适合做大模型的训练(因为浮点性能低和无法集群组网)。一方面是推理场景性价比低,大约为2022年主流专用推理芯片10%~15%的性能;另一方面由于海光DCU在最初得到Mi100授权时,把与训练有关的性能和关键特性做了裁剪,导致“高不成(训练)、低不就(推理)”。
而更大的挑战还在于,由于海光DCU始于兼容通用的“类CUDA”,英伟达可能禁止使用第三方硬件,也就是非英伟达的GPU通过使用模拟层运行CUDA软件,而之前英伟达只是在在线EULA用户协议中提出警告而已。虽然业内对此持有不同的看法,因为英伟达此前仅是警告,始终没有付诸行动;但在笔者看来,鉴于目前日益严峻的非市场环境因素,我们不应再抱有侥幸心理,而应未雨绸缪,即通过提升自身的软硬件实力,构筑属于自己的软硬件生态。
可喜的是,有报道称,百度、阿里等互联网企业已认证通过海光的DCU产品并推出联合方案,打造全国产软硬件一体全栈AI基础设施;此外,科大讯飞、商汤和云从等国内头部AI企业,已有大量模型移植并运行在海光DCU平台上。
而为了完善通用计算平台的国产生态,海光还发起成立了海光产业生态合作组织,联合了体制内外的高校、科研院所和产业链上下游企业,开展“产学研”相结合的协同攻关,为突破行业内关键共性技术提供助力。
所谓“万事开头难”,随着海光信息DCU产品的不断迭代以及其对生态建设的重视和推进,赶上甚至超越,直至替代英伟达的AI芯片,也许只是时间早晚的问题。
*本文刊载于《通信世界》总第940期 2024年3月25日 第6期原文标题:《AI芯片受限 海光信息DCU能否担起替代重任?》
作者:孙永杰
责编/版式:王禹蓉
审校:王 涛 梅雅鑫
监制:刘启诚