刚刚,商汤又多了一项“亚洲第一”。
就在上海临港,商汤自建的人工智能计算中心(AIDC)交付使用,一举成为亚洲最大的AI超算中心(至少是之一)。这也是“亚洲营收第一”,“亚洲AI软件第一股”之后,商汤开启的新标签。
不同的是,这次,很硬。
单从算力来看,商汤AIDC总算力达到3740 Petaflops,相当于每秒进行374亿亿次浮点运算,374后面16个“0”,可完整训练万亿参数大模型。
这个规模,放在全国、甚至全亚洲已投产的计算中心里都是第一梯队。
在刚刚过去的2021年,各大城市建设AIDC你争我赶,好不热闹。北上广深自不必说、南京武汉合肥西安AIDC项目也纷纷上马。
根据国家工信安全智库发布的《新一代人工智能算力基础设施发展研究》,国内AIDC建设整体思路是政企合作。建设模式多为政府出资招标、政企合资,承建方也多为传统IT基础设施服务商、云服务商。
商汤AI算法起家,仅一期就自投56亿元研发建设一个如此重资产的项目属实少见,开了国内先例。
这家AI公司的基础设施建成了什么样子?有什么特别之处?又为何选择自建?这一系列问题自商汤AIDC项目自2020年3月首次宣布以来都是外界好奇所在。
今天借着正式落成的机会,我们就来一一解答。
耗资56亿元打造出大装置的“基石”
据了解,商汤AIDC占地面积80亩,建筑面积13万平方米,是亚洲最大的超算中心之一。
其中,光是投入运营的一期机柜数量就达到5000个,国产硬件占了50%;后续二期“完成体”建成后,算力会比现在的3740P至少翻一番。
作为AI算法和平台的底层基础设施,商汤AIDC并非仅仅是一个堆叠大量服务器、AI专用处理器、联网设备等硬件的“物理仓库”,相反自研了不少技术来提升算力:
高性能计算引擎。这个引擎介于硬件和平台之间,专门用来“压榨”各种芯片,提升它们的计算能力。结合全图优化技术,还能将引擎能力延展到AI模型计算、预处理和后处理阶段。
分布式任务调度系统。单一芯片以外,多芯片的协同计算能力同样重要,商汤的这一系统便是为此研发,目前在已投入使用的集群中每年调度超过2000万个任务,进一步降低成本。
除了这两大硬件技术以外,商汤还针对数据交换(输入/输出)、软硬件协同设计和系统安全进行了设计,在提升模型生产效率、拔高算力的同时,确保用户使用的安全性。
问题来了,一度以AI算法出名的商汤,为何要投入56亿元自建一个智算中心?
这就要提到AIDC在商汤版图中的定位了——它是整个商汤大装置的“基石”。
商汤大装置,类似于AI版“发电厂”,包含计算基础设施、深度学习平台和模型层,能够像大规模发电一样,批量化地生产各种AI算法模型(还能部署、迭代和升级)。
AIDC上运行着商汤大装置中的所有AI算法和平台,此次投入使用,相当于将整个大装置的能力完全开放了出来,即整个商汤这些年储备的“AI能力”。
这个能力,本质上是从0到1半自动、自适应化生产AI模型的能力:
一个人无需拥有AI知识,只需要给定模型的输入和输出条件(端到端,例如输入一段话,输出一幅画),商汤大装置就能快速DIY一个AI模型。
因此,AIDC既能独立作为智算中心、也能作为大装置的基石运行。
从智算中心角度而言,商汤AIDC最近加入了国家(上海)新型互联网交换中心,不仅能提供网络服务,本身也能作为算力云平台进行使用。
事实上,在AIDC正式对外开放之前,商汤内部就已经在它基础上,训练出了不少成功的算法案例。
例如,最近刚发布的“书生”模型(INTERN),覆盖了分类、目标检测、语义分割、深度估计四大视觉核心任务,就是在AIDC上训练出来的。
相较于OpenAI的CLIP,“书生”只需要10%的下游数据,就能超过CLIP基于完整下游数据的任务准确率,很好地hold住了数据量不足的长尾场景、以及通用大模型的需求场景这两大问题。
而作为大装置的一部分,商汤AIDC在面对产业、科研和政府的“AI+”需求时,又能很好地作为一个物理平台去生产和运行AI模型。
其中,产业中的大量传统行业,就能借助大装置更快地完成数字化转型;政府则能利用AI进行城市治理、打造智慧乡村;而针对如今AI for Science场景,像生物方向的蛋白质结构预测、或是理化方向的公式推导等,大装置同样能帮助科研机构实现一整套用AI算法完成理论实验的流程。
当然,这些还都只是从定义上来看,AIDC所能实现的基础能力。
从商汤角度来说,这一整套自建的AIDC,相对于其他的智算中心究竟有什么优势?
“商汤版”AIDC,有何优势?
主要有五大核心竞争力。
其一,高弹性算力。作为一年AI顶会发表五十余篇论文、有“算法工厂”之称的商汤,从算法角度对于各种模型的硬件训练和需求有自己的话语权。
小到某一特定任务的算法模型,大到百亿参数的通用模型,研究人员都需要在AIDC上运行,这方面的经验商汤已经积累成了一个算法平台,也因此能让AIDC的算力在最大程度上被充分利用。
用商汤副总裁杨帆的话来说就是:“我们的AI算法科学家会对硬件算力提出需求,所以知道这个智算中心最好要做成什么样子。”
其二,低算力成本。一方面,商汤通过提升软件平台的兼容性,来适配各种国产硬件,从而实现成本降低。也就是无论模型在哪个牌子的硬件上训练或推理,商汤的平台都能兼容,这就使得在供应链上能取得话语权,从而降低硬件成本。
另一方面,商汤对于AI数据的存储进行了一个针对性的设计,相比于过去的结构化数据,商汤自研的存储系统能针对性地根据特定类型的任务,提速AI数据的存取。
其三,高安全性。商汤AIDC针对隐私计算做了大量工作,包括沙箱和多方安全计算等,不仅能做到数据的网络隔离,而且能做到物理隔离。
同时,针对数据使用权进行了一个界定,最大程度上确保客户的数据不被泄露、或是在确保隐私的情况下被合理使用。
其四,低网络时延。对于AIDC本身而言,接入国家(上海)新型互联网交换中心不仅让访问时延更低,而且意味着整体网络服务成本更低,质量更高;
同时,对于大装置而言,AIDC的集群网络设计基于RDMA(高速通信网络)技术,又能进一步提升模型训练的速度。
其五,低碳性。除了性能以外,商汤AIDC的能耗也控制得不错,PUE做到了1.28,这意味着相对于运行服务器等硬件的能耗,支撑数据中心运行的灯光和空调等费用是非常低的。
具体来说,AIDC功耗比国内其他数据中心低10%,相当于每年都能节省约4500万度电(一台普通手机使用一年,功耗总量也不到10度电)。
这也使得商汤AIDC虽然不是最早做的,但却能在行业中站到一个相对领先的位置。
回望过去的计算中心发展史,这大约并不是一个“偶发性事件”。
诞生于AI时代洪流之中
听上去,AIDC或者叫人工智能计算中心,似乎是一个颇为新鲜的概念。但其实在它之前,DC(数据中心)、IDC(互联网数据中心)、甚至是超级计算中心,就已经出现在人们的视野中。
被称作“人工智能”计算中心的AIDC,究竟为何会在时代的洪流中脱颖而出?
在新一轮深度学习热潮之前,大数据首先在互联网行业得到发展。由此催生的IT基础设施便是互联网数据中心 (IDC),若再往前追溯,则是大企业内部的数据中心 (DC)。
从DC到IDC,表面上看只是给数据中心“拉了根网线”,实际上是服务对象的变化、价值的升级。
硬件设施集中在一起,带来数据存储和处理能力增强和边际成本下降,超出企业内部需要的能力后,就可以打包成资源输出给外部客户。
随着互联网行业的崛起、成为过去数年间发展最快的行业之一,行业分工也由此发生细化,出现了专门的数据中心,专门给互联网厂商提供基础设施服务。
然而,在IDC中吃了一波时代红利的人可能没想到,AI的到来会再度催生出名为AIDC的产物。
随着AI大模型的出现,算法对算力的要求越来越高,人们对数据中心的要求不再是只提供基础设施服务,还希望它能够更高速地运行各种AI算法,并落地成各种智能应用。
服务对象也不再限于互联网行业,还扩展到了更多希望通过“AI+”实现转型的传统领域。
智慧制造、智慧能源、智慧城市都是近一段时间的突出代表。
靠传统IT技术没能做到的产业数字化转型,终于在AI的作用下成了一股不可阻挡的趋势。
根据权威咨询机构国际数据公司(缩写也是IDC)预测,算力指数平均每提高1个点,数字经济和GDP将分别增长3.3‰和1.8‰——
AI除了技术的发展,也正在成为拉升经济的重要“战力”。
但除了数据中心以外,领域内已经有很多现成的超算中心,人工智能计算中心的出现,是否并非必然?
事实上,二者仍然有很大不同。超级计算机主要面对尖端科技发展需要,如天气预测、能源勘探、卫星遥感。
科学和工程计算主要处理结构化的数值数据,对计算精度的要求最高,往往需要使用64位双精度计算,由CPU提供。
而AI面对的,则是大量文本、图像、视频这样的非结构化数据,对精度要求没那么高,对速度和效率更看重,更多靠GPU提供高并行的低精度算力。
AI在训练阶段主要用到32位单精度和16位半精度,在实际应用时的推理阶段,则经常只用16位甚至更低精度来保证运行效率。
显然,从服务对象和技术自身两方面来看,AI都要求有专门的基础设施,AIDC本身其实是“洪流之下”的一大趋势。
然而要说商汤这次在上海建的AIDC全是顺应时代所然,仍旧不免让人产生疑问:投入成本上,他们选择承担自建自投的风险,一出手就是56亿元;建设方案上,他们没有照搬已有的智算中心“作业”,而是针对人工智能计算的特点对传统IT基础设施服务能力做了优化和升级。
这背后有些什么考量?
带着这些问题,我们与商汤联合创始人、副总裁杨帆聊了聊。他说建设AIDC这事,还要从2018年说起……
“降低重复成本是永远的追求”
2018年后来被称为“人工智能商业化落地元年”。
那一年,商汤正处于业务拓展期。
大众容易感知到的,是AI双摄、AI美颜落地到OV、小米等各品牌手机上;不容易感知到的,还有智慧园区、智慧城市上更多项目开始起步。
杨帆回忆道,从那时起他们就隐约感到AI需要大算力基础设施这个趋势。
这个感觉来自技术研发,也来自产业发展。
技术方面,从ELMo到BERT,预训练模型的规模越来越大,对更大算力提出要求;产业方面,随着AI在更多场景落地、渗透到更多领域,产业分工开始细化,规模化的基础设施会成为需求。
这种变化,在过去很多行业都曾见过,比如大数据中心、云计算中心。
刚开始,商汤对这个基础设施的轮廓没有勾勒得很明确,是在后面的探索中才逐渐清晰。
从互联网公司、科技数码产品公司到传统工厂、物流、园区、政府,AI开始服务于离技术更远的客户,在这之中,商汤比较看重为客户提供端到端的服务,提供完整解决方案。
杨帆觉得AI开发平台应该像是操作系统,需要主动去对硬件和应用都搞好兼容,硬件基础设施也不能只是提供一个物理的环境,还要具备提供相应服务的能力:
与IDC的“租地皮”模式不同,AIDC更像“开餐馆”模式。
而决定自投自建,则主要有两方面原因。
一是是商汤看好AIDC未来的前景,希望以“自己吃螃蟹”来表明决心,向外界传递明确的信号;
二是作为一个探索性的项目,完全由自己出资有更大的自主决策权。
建设节奏也能把控得更快,2020年3月,商汤与上海临港签署合作协议,7月拿地开工,22年初就已经投入使用。
商汤AIDC建成后,对不同类型的客户可以提供不同层次的服务:
最基础的就是提供算力和AI算法生产工具体系,也就是深度学习平台;对于希望拿到应用级解决方案的用户,商汤可以提供端到端服务;甚至对于有科研需要的客户,商汤“连科学家也可以作为服务的一种,一并提供”。
商汤最不缺的就是科学家。按截至去年6月末的数据,商汤拥有40位教授,250多位博士,3500多位科学家和工程师,研发人员占比超过三分之二。
研发人员普遍信奉一个格言:
如果一件事需要重复做的次数超过3次,就要创造一个工具来做。
对于科技企业,用工具去提升效率,降低重复性的成本是永远的追求。
商汤把这个工具的概念放大,就成了AI大装置。
AI的三大要素,都能在大装置中得到进化。
先是数据。杨帆认为数据作为智能时代最重要的生产要素,与农业时代、工业时代的土地、能源有本质不同。数据是越用越多的,且可以低成本共享,越多数据放在一起产生的价值是非线性增长。
再说算力。提供算力的AI芯片,特别是国产GPU芯片在大装置中与算法平台和应用得到适配。建设大装置所下的大量订单也能帮助国产GPU形成规模化量产能力,摊薄流片成本,加速国产芯片商业化进程。
然后是算法。算法创新的成本正在因算力和工具的发展急剧下降。商汤研发人员每年人年均生产商用模型的数量,从2019年0.44个,2020年3.45个,2021年上半年到了5.24个,效率提升11.9倍。
在2021年上半年,商汤拥有的总算力是每秒1.17百亿亿次浮点运算;上海临港AIDC投产之后,这个数值超过每秒4.91百亿亿次浮点运算……算法的生产效率还将进一步提高。
AI算法生产的边际成本降低后,一方面可以降低AI现有服务对象所要付出的成本,另一方面则可以覆盖更多中长尾客户和场景提供定制化的AI能力。
目前,商汤AIDC已经被上海市经济和信息化委员会授予“上海人工智能融合赋能中心”称号。
杨帆透露称,现在已投产的部分只是第一期,后续还会扩建,以及随着试运营经验的积累持续改善节能减排,而在上海之外,对更多有AI产业需求的地区,商汤未来也会逐步去覆盖。
今天落成的上海临港AIDC,还只是商汤AI大装置中基础设施部分的起点。
梦晨 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI