“大模型”训练：一场AI技术和算力市场的博弈

ChatGPT作为近几个月持续的热点话题，热度不减的背后，是人工智能内容自动生成技术算力需求的水涨船高。一方面，ChatGPT带动了算力需求增长，另一方面，ChatGPT又对算力支撑提出了更高的要求。

有数据显示，ChatGPT一次模型训练需要的总算力消耗是3640PF-days，耗资约1200万美元，且在运营过程中也需要相当大的开销。

根据国盛证券报告，以ChatGPT在1月的独立访客平均数1300万计算，其对应芯片需求为3万多片英伟达A100 GPU，大概需要的算力成本为8亿美元，每天的电费成本在5万美元左右。ChatGPT获得微软130亿美元的投资，是其高算力投入背后的信心支撑。

正是有了科技巨头微软从资金、未来市场，到算力基础设施（Azure云）的全方位支持，OpenAI才能够以独立创业企业的身份，完成如此巨大的工程。算力要求和参数量级紧密相关，参数量级也是当前衡量大模型训练质量的一个重要参考。参数量越大，模型越智能，随之而来的开销也就越大。这一点形成了GPT类型高门槛的特点。GPT-3之前的版本是开源的，其他创业者比较容易以此为基础开展新的研发工作。从GPT-4开始，OpenAI开放API以字节流量收费。不论是应用开发，还是在此基础上进行二次模型开发，都存在较高门槛。

比较有趣的事情是Meta公司的LLaMA源代码泄露。由此出现了所谓的“羊驼家族”（“Llama”可译为“羊驼”）大模型，希望获得开源资源的开发者可以在GPT-3之外获得一个新的选择。

“大模型”对算力的高度依赖至少造成两个重大影响

一是这已经不是“草根”创业的游戏，也不是以往互联网创业“Copy To China”的游戏，而是“真刀真枪”的核心能力大比拼，从资金、技术到企业战略定力的全方位考核。

在传统工业时代，中国从加工业开始，逐渐向高价值的核心技术研发攀升，但实际上距离欧美最先进水平还有一定距离。特别是在材料科学等需要长时间技术积累的类目上，差距依然很大。

进入数字时代，中国产业界的共识变为直接从核心技术研发开始。

美国与中国的科技依存度减弱已成趋势。虽然现在只是芯片行业受到掣肘，但是如果“大模型”发展成为生产要素，我们也一定会遇到同样的问题。因此，中国必须拥有自己的“大模型”核心技术。中国科技企业看到这样的必然性，对“大模型”进行大投入也成为趋势。

中小科技企业在没有能力开发原生“大模型”的情况下，可以利用GPT-3或者LLaMA的开源模型进行开发或二次开发，形成自己的“大模型”。应用开发企业很少会开发原生“大模型”，除非对其应用的销售市场有极高的信心，否则将屈服于巨大的算力成本压力，转而支付API使用费，利用现成模型开发相关应用。

二是“东数西算”建设恰逢其时，可能迎来大商机。

西部地区“绿电”资源丰富，在“东数西算”整体规划下，西部枢纽主要承担备份存储的工作；东部地区在智慧城市、产业互联网和互联网服务中的即时计算工作，则放在东部地区的枢纽解决。“大模型”对算力要求巨大，东部IDC大规模占用算力资源，有三大缺点：成本高（东部电费高）、排放高（东部绿电比例小）、挤占低时延需求应用的算力资源，这为西部的算力中心创造了新的商机。

一方面，将“大模型”的训练计算放在西部地区的IDC，对当地的通信网络性能提升有更高要求。海量数据的吞吐是一个需要解决的问题，但解决这个问题的成本远远小于IDC使用费差异。

另一方面，科技公司巨头都提出了自己的ESG（环境社会责任）目标，碳排放是其中最重要的指标。“大模型”、大算力，运行就会产生大量的碳排放，对“绿色算力”的需求也就越迫切。

*本文刊载于《通信世界》

总第918期 2023年4月25日第8期原文标题：《ChatGPT对算力存在双重影响》

作者：野村综研未来创新中心主任咨询顾问闵海兰

责编/版式：王鹤迦

审核：舒文琼

监制：刘启诚