作者|薛良Neil,邮箱|neilshen@pingwest.com
只有算力是不够的
AI 服务器是大模型战争中兵家必争之地,因为它代表了最为紧俏和稀缺的算力资源。浪潮信息则正是中国大陆最大的服务器提供商。
每两台AI服务器就有一台出自浪潮信息——将AI算力芯片经过系统化的整机设计,最终变成包括计算单元、存储单元、散热单元和供电系统等在内的完整产品交付给客户。
在大模型出现之前,算力资源可以直接用服务器的数量来表示,需要多少算力,就购买多少台服务器就可以了,彼此的换算关系几乎是透明的。正因如此,浪潮信息所做的事情一度被认为非常简单——卖尽可能多的服务器就好。
但大模型的出现改变了这一切。
尽管每个人都在谈论算力和它的紧缺,但许多人不知道的是,即便有了充分的 GPU 芯片供应,训练大模型依然是一个非常复杂和艰困的过程。
比如仅仅是把几千张卡串联起来就是一个工程学上的大问题,国内有现成经验的只有几家最大的云厂商。再比如,相比传统的分布式训练,大模型训练过程更复杂,周期也更长,这就要求服务器集群在充分运用算力资源、提升性能的同时保证整个系统的稳定性,在这个领域几乎全行业都处于摸索阶段。
一个现实的数字是,未经工程优化的情况下,许多企业的服务器效率甚至只有 20%-30%,考虑到大模型算力的高昂成本,这种浪费无疑十分惊人。
但这一关又是不得不过的。
百模大战中,许多大模型是通过 API 调用或者云的方式训练出来的,为了追求速度这本无可厚非,但要想让大模型变得真正落地、可用,则必须进行算力的本地化部署,因为商业化能力的构建是离不开本地算力资源作为后盾的。
这很像是十年前公有云计算发展的脉络,在起步阶段第一波应用过后,公有云的普适化能力开始逐步落地到场景和行业中,于是本地化就随之开始了。
然而本地化又谈何容易呢?除了上面提到的服务器部署这种直接相关的痛点外,大模型训练实际上是一个冰冷的系统性工程问题,从数据清洗到算力适配,从性能兼容适配到软硬件协同,这些实践中的一个个坑所带来的挑战丝毫不逊于算力本身,它们共同影响着大模型的性能与落地的速度。
“客户最关心的就是本地化部署应用。”一位接近浪潮信息客户侧服务的人士向品玩表示。根据公开数据的粗略统计,参与百模大战的企业中有高达 80%都是浪潮信息的客户,因而企业本地化部署的问题,几乎也成了浪潮信息的问题。
仅仅是单纯卖硬件算力已经不够了,人工智能行业的极速变化要求浪潮信息也随之变化。
OGAI:针对大模型的五层解法
在 2021 年,也就是GPT 爆发之前,浪潮信息就推出了名为“源”的大模型,这个有 2457 亿参数的中文大模型,从数据搜集到千卡集群算力支撑的模型训练和推理都是浪潮信息自己完成的,也就是说,早在大模型成为一个现象级词汇之前,浪潮信息已经有了切实的第一手关于大模型开发、训练和微调的经验。
这让浪潮信息收获颇丰,比如在数据侧,从公开数据爬取、清洗到格式转化和质量评估,浪潮信息最终拥有了一个高达 5TB 的原创中文数据集,而在最重要的计算效率方面,浪潮信息已经可以达至50%左右。
从某种意义上说,这种行业 know how 经验甚至是奢侈的,只有浪潮信息这种算力供应商才能负担得起——要知道“源”模型的参数量比 GPT3 还多了 700 亿。
这些经验最终成为了浪潮信息在 8 月 24 号发布的“元脑生智”:大模型智算软件栈 OGAI(Open GenAI Infra) 的一部分。如果用一句话解释OGAI 是什么的话,浪潮信息希望你把它理解为一个生长在浪潮信息服务器硬件上的,专门基于大模型开发的全栈全流程能软件套组。在硬件侧,它能够最大化实现对 GPU 算力的调用,软件方面则从炼大模型的一开始就帮助开发者提升效率。
OGAI一共分为五层,从 L0 到 L2主要针对的是大模型基础算力环境的效率提升。其中 L0 层是浪潮信息的智算中心OS,负责直接管理和分配算力资源,可以提供多租户的无损裸机算力环境。这有点像本地版本的云调度平台,宛如最底层的操作系统一样,面向大模型的算力需求实现对硬件的集中管理。
第二层 PODsys 是一个开源项目,它集成了系统环境部署的工具链。PODsys 有点像是长在初始化操作系统上的驱动程序,针对不同的环境和需求,实现从环境部署、系统监控和和资源调度的参数自动化配置。由于是开源项目,PODsys软件包大量集合了业界广泛使用的主流开源工具和框架,用户只需要执行非常简单的命令就能完成对整个算力集群的配置。
PODsys工具链是浪潮信息的首创,它实现的功能在过去是由人力来提供的,打个不太恰当的比方,它有点像是买组合台式电脑时工程师上门进行的驱动安装服务。随着整个数据中心行业向加速计算转型,对专家服务的需求也随之扩大,PODsys 这位“专家”的出现省去了用户在环境配置和优化上花费的成本。
L2 层是基础环境配置的最后一层,名为 AIStation ,它已经迭代到了4.0 版本,简单来说,它是浪潮信息研发的一款商业化软件,聚焦于对 AI 算力资源的精准调度。
大模型训练所花费的时间往往高达数十甚至上百天,因此对系统的算力、存储和网络的统一调度就显得十分重要。AIStation 支持单一集群数万个GPU 以及计算节点的介入和调度,有效把 L0 层已经池化的算力资源进行恰当分配以实现最大限度的调用效率,特别是它的断点自动续训能力,可以有效保证大模型训练的稳定性。
第四层名为 YLink。在基础环境构建完毕后,YLink精准对标大模型训练的 know how 问题。模型开发的两个环节,数据处理和模型训练在这一层都能找到对应的工具包,因此你可以把YLink当做浪潮信息专门为模型开发设计的能力支持层,标准化的数据处理工具、分布式训练框架和对应脚本以及微调用到的参数和指令调整都被集合在了一起,模型预训练的效率和微调的质量都将因此得到提升。
最后一层则是 MModel,它可以对各种版本和类型模型进行评估和管理,甚至还可以把它看做一个模型商店——开发者可以通过 MModel 分享自己的模型和数据集。
根据浪潮信息人工智能与高性能应用软件部 AI 架构师Owen Zhu的介绍,由五层架构组合起来的 OGAI 内部每一层的功能都是解耦的,不同的用户根据自身的场景可以按照需要独立选择每一层的功能。
当硬件厂商向上兼容
OGAI 可以被看作由硬件厂商基于硬件和自身经验所设计的一种端到端的大模型解决方案。
“OGAI 等于是把浪潮信息的模型能力平台化构建出的一种解决方案。”发布会现场的一位厂商如此向品玩表示。五层架构完整地覆盖了从最底层的算力调度到模型发布的全流程,理想情况下,开发者基于浪潮信息的硬件环境就能实现大模型开发的“开箱即用”。
在这五层架构中,PODsys 和 YLink 层都属于业界首创,尤其是 PODsys 层,在此之前没有人用一套完整工具链实现对算力基础环境配置的能力。或者你可以这样理解,只有类似浪潮信息这样的硬件提供商才有能力和动机提供这种一揽子套件,因为浪潮信息不仅足够了解硬件,同时也积累了足够丰富的商业化落地经验。
在分秒必争的大模型竞赛中,这种经验成为了浪潮信息十分独特的优势,它极大缩短了服务器集群设置所需要的时间,等于间接为模型开发提速。
我们可以看到,由硬件厂商和算力提供商,而不是软件服务集成商,主动推出大模型解决方案实际上已经成为了一种趋势。国内百度云和阿里云都各自上线了相关的模型服务和社区,国外的云厂商,从巨头如微软 Azure 到初创公司 CoreWeave 都在努力降低算力的使用门槛,用户使用浏览器就能方便地一键调用其算力用于大模型训练。
而依靠在 GPU 领域享有几乎垄断地位,进而在 AI 时代大赚特赚的英伟达实际上也在通过密集发布各种软件方案来促进大模型技术的广泛落地,比如和DGX 等英伟达服务器集成在一起的由几千个加速库和工具套件以及集群管理软件组成的英伟达 AI Enterprise ,以及 8 月刚刚由黄仁勋亲自发布的,整合了原本分散在各处的大模型开发工具与流程的英伟达 AI Workbench,这些方案的最终目的都是尽可能让开发者聚焦于高效训练模型本身。
但无论云厂商也好,英伟达也罢,它们的解决方案都有各自的弱点,云的方案在非常强调本地化的中国市场有各种水土不服的情况,尤其是在数据和隐私安全性方面。英伟达的解决方案尽管是同它的硬件能力结合的最好的,但一方面CUDA 生态本身是闭源的,而另一方面,不管是出于成本还是地缘政治现实的考虑,更多的用户实际上更需要的是跨多种硬件的,开源的解决方案。
由此,浪潮信息的 OGAI 站在了一个独特的位置上。一方面它满足了本地化部署的需求,另一方面这套解决方案并不是如行业最近热炒的“AI 一体机”一样与硬件进行了深度绑定,实际上这套方案本身都是解耦的,也就是说,尽管OGAI 是一套端到端的,囊括了产品和工具链的完整服务,但在具体使用的过程中,它完全可以依照开发者的需求进行非常自由的搭配,浪潮信息只是提供了一个解法,足够可靠,但并不唯一。
它是一个最懂大模型商业化落地场景的基础设施提供商,为这场百模大战贡献的独一无二的答案。