加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • “大模型”对算力的高度依赖至少造成两个重大影响
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

“大模型”训练:一场AI技术和算力市场的博弈

2023/04/28
1925
阅读需 6 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

ChatGPT作为近几个月持续的热点话题,热度不减的背后,是人工智能内容自动生成技术算力需求的水涨船高。一方面,ChatGPT带动了算力需求增长,另一方面,ChatGPT又对算力支撑提出了更高的要求。

有数据显示,ChatGPT一次模型训练需要的总算力消耗是3640PF-days,耗资约1200万美元,且在运营过程中也需要相当大的开销。

根据国盛证券报告,以ChatGPT在1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100 GPU,大概需要的算力成本为8亿美元,每天的电费成本在5万美元左右。ChatGPT获得微软130亿美元的投资,是其高算力投入背后的信心支撑。

正是有了科技巨头微软从资金、未来市场,到算力基础设施(Azure云)的全方位支持,OpenAI才能够以独立创业企业的身份,完成如此巨大的工程。算力要求和参数量级紧密相关,参数量级也是当前衡量大模型训练质量的一个重要参考。参数量越大,模型越智能,随之而来的开销也就越大。这一点形成了GPT类型高门槛的特点。GPT-3之前的版本是开源的,其他创业者比较容易以此为基础开展新的研发工作。从GPT-4开始,OpenAI开放API以字节流量收费。不论是应用开发,还是在此基础上进行二次模型开发,都存在较高门槛。

比较有趣的事情是Meta公司的LLaMA源代码泄露。由此出现了所谓的“羊驼家族”(“Llama”可译为“羊驼”)大模型,希望获得开源资源的开发者可以在GPT-3之外获得一个新的选择。

“大模型”对算力的高度依赖至少造成两个重大影响

一是这已经不是“草根”创业的游戏,也不是以往互联网创业“Copy To China”的游戏,而是“真刀真枪”的核心能力大比拼,从资金、技术到企业战略定力的全方位考核。

在传统工业时代,中国从加工业开始,逐渐向高价值的核心技术研发攀升,但实际上距离欧美最先进水平还有一定距离。特别是在材料科学等需要长时间技术积累的类目上,差距依然很大。

进入数字时代,中国产业界的共识变为直接从核心技术研发开始。

美国与中国的科技依存度减弱已成趋势。虽然现在只是芯片行业受到掣肘, 但是如果“大模型”发展成为生产要素,我们也一定会遇到同样的问题。因此,中国必须拥有自己的“大模型”核心技术。中国科技企业看到这样的必然性,对“大模型”进行大投入也成为趋势。

中小科技企业在没有能力开发原生“大模型”的情况下,可以利用GPT-3或者LLaMA的开源模型进行开发或二次开发,形成自己的“大模型”。应用开发企业很少会开发原生“大模型”,除非对其应用的销售市场有极高的信心,否则将屈服于巨大的算力成本压力,转而支付API使用费,利用现成模型开发相关应用。

二是“东数西算”建设恰逢其时,可能迎来大商机。

西部地区“绿电”资源丰富,在“东数西算”整体规划下,西部枢纽主要承担备份存储的工作;东部地区在智慧城市、产业互联网和互联网服务中的即时计算工作,则放在东部地区的枢纽解决。“大模型”对算力要求巨大,东部IDC大规模占用算力资源,有三大缺点:成本高(东部电费高)、排放高(东部绿电比例小)、挤占低时延需求应用的算力资源,这为西部的算力中心创造了新的商机。

一方面,将“大模型”的训练计算放在西部地区的IDC,对当地的通信网络性能提升有更高要求。海量数据的吞吐是一个需要解决的问题,但解决这个问题的成本远远小于IDC使用费差异。

另一方面,科技公司巨头都提出了自己的ESG(环境社会责任)目标,碳排放是其中最重要的指标。“大模型”、大算力,运行就会产生大量的碳排放,对“绿色算力”的需求也就越迫切。

*本文刊载于《通信世界》

总第918期 2023年4月25日 第8期原文标题:《ChatGPT对算力存在双重影响

作者:野村综研未来创新中心主任咨询顾问 闵海兰

责编/版式:王鹤迦

审核:舒文琼

监制:刘启诚

 

相关推荐

电子产业图谱