商汤首付56亿，上海建成亚洲最大AI“发电厂”，万亿参数大模型训练无压力

刚刚，商汤又多了一项“亚洲第一”。

就在上海临港，商汤自建的人工智能计算中心（AIDC）交付使用，一举成为亚洲最大的AI超算中心（至少是之一）。这也是“亚洲营收第一”，“亚洲AI软件第一股”之后，商汤开启的新标签。

不同的是，这次，很硬。

单从算力来看，商汤AIDC总算力达到3740 Petaflops，相当于每秒进行374亿亿次浮点运算，374后面16个“0”，可完整训练万亿参数大模型。

这个规模，放在全国、甚至全亚洲已投产的计算中心里都是第一梯队。

在刚刚过去的2021年，各大城市建设AIDC你争我赶，好不热闹。北上广深自不必说、南京武汉合肥西安AIDC项目也纷纷上马。

根据国家工信安全智库发布的《新一代人工智能算力基础设施发展研究》，国内AIDC建设整体思路是政企合作。建设模式多为政府出资招标、政企合资，承建方也多为传统IT基础设施服务商、云服务商。

商汤AI算法起家，仅一期就自投56亿元研发建设一个如此重资产的项目属实少见，开了国内先例。

这家AI公司的基础设施建成了什么样子？有什么特别之处？又为何选择自建？这一系列问题自商汤AIDC项目自2020年3月首次宣布以来都是外界好奇所在。

今天借着正式落成的机会，我们就来一一解答。

耗资56亿元打造出大装置的“基石”

据了解，商汤AIDC占地面积80亩，建筑面积13万平方米，是亚洲最大的超算中心之一。

其中，光是投入运营的一期机柜数量就达到5000个，国产硬件占了50%；后续二期“完成体”建成后，算力会比现在的3740P至少翻一番。

作为AI算法和平台的底层基础设施，商汤AIDC并非仅仅是一个堆叠大量服务器、AI专用处理器、联网设备等硬件的“物理仓库”，相反自研了不少技术来提升算力：

高性能计算引擎。这个引擎介于硬件和平台之间，专门用来“压榨”各种芯片，提升它们的计算能力。结合全图优化技术，还能将引擎能力延展到AI模型计算、预处理和后处理阶段。

分布式任务调度系统。单一芯片以外，多芯片的协同计算能力同样重要，商汤的这一系统便是为此研发，目前在已投入使用的集群中每年调度超过2000万个任务，进一步降低成本。

除了这两大硬件技术以外，商汤还针对数据交换（输入/输出）、软硬件协同设计和系统安全进行了设计，在提升模型生产效率、拔高算力的同时，确保用户使用的安全性。

问题来了，一度以AI算法出名的商汤，为何要投入56亿元自建一个智算中心？

这就要提到AIDC在商汤版图中的定位了——它是整个商汤大装置的“基石”。

商汤大装置，类似于AI版“发电厂”，包含计算基础设施、深度学习平台和模型层，能够像大规模发电一样，批量化地生产各种AI算法模型（还能部署、迭代和升级）。

AIDC上运行着商汤大装置中的所有AI算法和平台，此次投入使用，相当于将整个大装置的能力完全开放了出来，即整个商汤这些年储备的“AI能力”。

这个能力，本质上是从0到1半自动、自适应化生产AI模型的能力：

一个人无需拥有AI知识，只需要给定模型的输入和输出条件（端到端，例如输入一段话，输出一幅画），商汤大装置就能快速DIY一个AI模型。

因此，AIDC既能独立作为智算中心、也能作为大装置的基石运行。

从智算中心角度而言，商汤AIDC最近加入了国家（上海）新型互联网交换中心，不仅能提供网络服务，本身也能作为算力云平台进行使用。

事实上，在AIDC正式对外开放之前，商汤内部就已经在它基础上，训练出了不少成功的算法案例。

例如，最近刚发布的“书生”模型（INTERN），覆盖了分类、目标检测、语义分割、深度估计四大视觉核心任务，就是在AIDC上训练出来的。

相较于OpenAI的CLIP，“书生”只需要10%的下游数据，就能超过CLIP基于完整下游数据的任务准确率，很好地hold住了数据量不足的长尾场景、以及通用大模型的需求场景这两大问题。

而作为大装置的一部分，商汤AIDC在面对产业、科研和政府的“AI+”需求时，又能很好地作为一个物理平台去生产和运行AI模型。

其中，产业中的大量传统行业，就能借助大装置更快地完成数字化转型；政府则能利用AI进行城市治理、打造智慧乡村；而针对如今AI for Science场景，像生物方向的蛋白质结构预测、或是理化方向的公式推导等，大装置同样能帮助科研机构实现一整套用AI算法完成理论实验的流程。

当然，这些还都只是从定义上来看，AIDC所能实现的基础能力。

从商汤角度来说，这一整套自建的AIDC，相对于其他的智算中心究竟有什么优势？

“商汤版”AIDC，有何优势？

主要有五大核心竞争力。

其一，高弹性算力。作为一年AI顶会发表五十余篇论文、有“算法工厂”之称的商汤，从算法角度对于各种模型的硬件训练和需求有自己的话语权。

小到某一特定任务的算法模型，大到百亿参数的通用模型，研究人员都需要在AIDC上运行，这方面的经验商汤已经积累成了一个算法平台，也因此能让AIDC的算力在最大程度上被充分利用。

用商汤副总裁杨帆的话来说就是：“我们的AI算法科学家会对硬件算力提出需求，所以知道这个智算中心最好要做成什么样子。”

其二，低算力成本。一方面，商汤通过提升软件平台的兼容性，来适配各种国产硬件，从而实现成本降低。也就是无论模型在哪个牌子的硬件上训练或推理，商汤的平台都能兼容，这就使得在供应链上能取得话语权，从而降低硬件成本。

另一方面，商汤对于AI数据的存储进行了一个针对性的设计，相比于过去的结构化数据，商汤自研的存储系统能针对性地根据特定类型的任务，提速AI数据的存取。

其三，高安全性。商汤AIDC针对隐私计算做了大量工作，包括沙箱和多方安全计算等，不仅能做到数据的网络隔离，而且能做到物理隔离。

同时，针对数据使用权进行了一个界定，最大程度上确保客户的数据不被泄露、或是在确保隐私的情况下被合理使用。

其四，低网络时延。对于AIDC本身而言，接入国家（上海）新型互联网交换中心不仅让访问时延更低，而且意味着整体网络服务成本更低，质量更高；

同时，对于大装置而言，AIDC的集群网络设计基于RDMA（高速通信网络）技术，又能进一步提升模型训练的速度。

其五，低碳性。除了性能以外，商汤AIDC的能耗也控制得不错，PUE做到了1.28，这意味着相对于运行服务器等硬件的能耗，支撑数据中心运行的灯光和空调等费用是非常低的。

具体来说，AIDC功耗比国内其他数据中心低10%，相当于每年都能节省约4500万度电（一台普通手机使用一年，功耗总量也不到10度电）。

这也使得商汤AIDC虽然不是最早做的，但却能在行业中站到一个相对领先的位置。

回望过去的计算中心发展史，这大约并不是一个“偶发性事件”。

诞生于AI时代洪流之中

听上去，AIDC或者叫人工智能计算中心，似乎是一个颇为新鲜的概念。但其实在它之前，DC（数据中心）、IDC（互联网数据中心）、甚至是超级计算中心，就已经出现在人们的视野中。

被称作“人工智能”计算中心的AIDC，究竟为何会在时代的洪流中脱颖而出？

在新一轮深度学习热潮之前，大数据首先在互联网行业得到发展。由此催生的IT基础设施便是互联网数据中心（IDC），若再往前追溯，则是大企业内部的数据中心（DC）。

从DC到IDC，表面上看只是给数据中心“拉了根网线”，实际上是服务对象的变化、价值的升级。

硬件设施集中在一起，带来数据存储和处理能力增强和边际成本下降，超出企业内部需要的能力后，就可以打包成资源输出给外部客户。

随着互联网行业的崛起、成为过去数年间发展最快的行业之一，行业分工也由此发生细化，出现了专门的数据中心，专门给互联网厂商提供基础设施服务。

然而，在IDC中吃了一波时代红利的人可能没想到，AI的到来会再度催生出名为AIDC的产物。

随着AI大模型的出现，算法对算力的要求越来越高，人们对数据中心的要求不再是只提供基础设施服务，还希望它能够更高速地运行各种AI算法，并落地成各种智能应用。

服务对象也不再限于互联网行业，还扩展到了更多希望通过“AI+”实现转型的传统领域。

智慧制造、智慧能源、智慧城市都是近一段时间的突出代表。

靠传统IT技术没能做到的产业数字化转型，终于在AI的作用下成了一股不可阻挡的趋势。

根据权威咨询机构国际数据公司（缩写也是IDC）预测，算力指数平均每提高1个点，数字经济和GDP将分别增长3.3‰和1.8‰——

AI除了技术的发展，也正在成为拉升经济的重要“战力”。

但除了数据中心以外，领域内已经有很多现成的超算中心，人工智能计算中心的出现，是否并非必然？

事实上，二者仍然有很大不同。超级计算机主要面对尖端科技发展需要，如天气预测、能源勘探、卫星遥感。

科学和工程计算主要处理结构化的数值数据，对计算精度的要求最高，往往需要使用64位双精度计算，由CPU提供。

而AI面对的，则是大量文本、图像、视频这样的非结构化数据，对精度要求没那么高，对速度和效率更看重，更多靠GPU提供高并行的低精度算力。

AI在训练阶段主要用到32位单精度和16位半精度，在实际应用时的推理阶段，则经常只用16位甚至更低精度来保证运行效率。

显然，从服务对象和技术自身两方面来看，AI都要求有专门的基础设施，AIDC本身其实是“洪流之下”的一大趋势。

然而要说商汤这次在上海建的AIDC全是顺应时代所然，仍旧不免让人产生疑问：投入成本上，他们选择承担自建自投的风险，一出手就是56亿元；建设方案上，他们没有照搬已有的智算中心“作业”，而是针对人工智能计算的特点对传统IT基础设施服务能力做了优化和升级。

这背后有些什么考量？

带着这些问题，我们与商汤联合创始人、副总裁杨帆聊了聊。他说建设AIDC这事，还要从2018年说起……

“降低重复成本是永远的追求”

2018年后来被称为“人工智能商业化落地元年”。

那一年，商汤正处于业务拓展期。

大众容易感知到的，是AI双摄、AI美颜落地到OV、小米等各品牌手机上；不容易感知到的，还有智慧园区、智慧城市上更多项目开始起步。

杨帆回忆道，从那时起他们就隐约感到AI需要大算力基础设施这个趋势。

这个感觉来自技术研发，也来自产业发展。

技术方面，从ELMo到BERT，预训练模型的规模越来越大，对更大算力提出要求；产业方面，随着AI在更多场景落地、渗透到更多领域，产业分工开始细化，规模化的基础设施会成为需求。

这种变化，在过去很多行业都曾见过，比如大数据中心、云计算中心。

刚开始，商汤对这个基础设施的轮廓没有勾勒得很明确，是在后面的探索中才逐渐清晰。

从互联网公司、科技数码产品公司到传统工厂、物流、园区、政府，AI开始服务于离技术更远的客户，在这之中，商汤比较看重为客户提供端到端的服务，提供完整解决方案。

杨帆觉得AI开发平台应该像是操作系统，需要主动去对硬件和应用都搞好兼容，硬件基础设施也不能只是提供一个物理的环境，还要具备提供相应服务的能力：

与IDC的“租地皮”模式不同，AIDC更像“开餐馆”模式。

而决定自投自建，则主要有两方面原因。

一是是商汤看好AIDC未来的前景，希望以“自己吃螃蟹”来表明决心，向外界传递明确的信号；

二是作为一个探索性的项目，完全由自己出资有更大的自主决策权。

建设节奏也能把控得更快，2020年3月，商汤与上海临港签署合作协议，7月拿地开工，22年初就已经投入使用。

商汤AIDC建成后，对不同类型的客户可以提供不同层次的服务：

最基础的就是提供算力和AI算法生产工具体系，也就是深度学习平台；对于希望拿到应用级解决方案的用户，商汤可以提供端到端服务；甚至对于有科研需要的客户，商汤“连科学家也可以作为服务的一种，一并提供”。

商汤最不缺的就是科学家。按截至去年6月末的数据，商汤拥有40位教授，250多位博士，3500多位科学家和工程师，研发人员占比超过三分之二。

研发人员普遍信奉一个格言：

如果一件事需要重复做的次数超过3次，就要创造一个工具来做。

对于科技企业，用工具去提升效率，降低重复性的成本是永远的追求。

商汤把这个工具的概念放大，就成了AI大装置。

AI的三大要素，都能在大装置中得到进化。

先是数据。杨帆认为数据作为智能时代最重要的生产要素，与农业时代、工业时代的土地、能源有本质不同。数据是越用越多的，且可以低成本共享，越多数据放在一起产生的价值是非线性增长。

再说算力。提供算力的AI芯片，特别是国产GPU芯片在大装置中与算法平台和应用得到适配。建设大装置所下的大量订单也能帮助国产GPU形成规模化量产能力，摊薄流片成本，加速国产芯片商业化进程。

然后是算法。算法创新的成本正在因算力和工具的发展急剧下降。商汤研发人员每年人年均生产商用模型的数量，从2019年0.44个，2020年3.45个，2021年上半年到了5.24个，效率提升11.9倍。

在2021年上半年，商汤拥有的总算力是每秒1.17百亿亿次浮点运算；上海临港AIDC投产之后，这个数值超过每秒4.91百亿亿次浮点运算……算法的生产效率还将进一步提高。

AI算法生产的边际成本降低后，一方面可以降低AI现有服务对象所要付出的成本，另一方面则可以覆盖更多中长尾客户和场景提供定制化的AI能力。

目前，商汤AIDC已经被上海市经济和信息化委员会授予“上海人工智能融合赋能中心”称号。

杨帆透露称，现在已投产的部分只是第一期，后续还会扩建，以及随着试运营经验的积累持续改善节能减排，而在上海之外，对更多有AI产业需求的地区，商汤未来也会逐步去覆盖。

今天落成的上海临港AIDC，还只是商汤AI大装置中基础设施部分的起点。

梦晨萧箫发自凹非寺

量子位 | 公众号 QbitAI

商汤首付56亿，上海建成亚洲最大AI“发电厂”，万亿参数大模型训练无压力

耗资56亿元打造出大装置的“基石”

“商汤版”AIDC，有何优势？

诞生于AI时代洪流之中

“降低重复成本是永远的追求”

相关推荐