我觉得国内云计算产业中相当一部分人有一个认知上的误区:认为“云=算力”。这个认知误区怎么产生的呢?
原因在于,国内许多号称的“云计算”并不是真正的云计算,国内当前大概有70%-80%的所谓云服务器,其实采用的还是传统的运营方式,并没有按照云计算的思路来提供服务。
再进一步,为什么他们不按照云计算的思路来提供服务呢?
因为这些所谓的云厂商,他们的技术储备根本不足以支撑操作系统的研发,他们入局只是为了抢云计算的红利,急吼吼地买一堆机器,搞来一套开源产品体系,然后对外声称提供云服务。
事实上,他们所谓的云,并没有在裸设备上提供太多附加值,卖的还是无差别的黑大粗铁盒子。这些黑大粗铁盒子能提供啥?无非就是最基础的计算,还有存储。正是因为这样所谓的云计算太多了,就很容易在产业(包括提供者和消费者)中形成了“云=算力”或者“云=算力+存储”这样的错误认知。事实上,云计算要最大化地发挥作用,就要作为一种公共服务存在,要在裸设备的基础上增加更多的价值,而不仅仅是卖服务器。
区别在哪呢?
传统的IDC只提供了服务器和交换机等裸设备,这些设备能提供基础的算力和存储。云计算服务则提供从基础设施到软件应用的全套服务,以一体化的方式提供服务。举一个简单的例子,数据库审计,在 IDC 实现一个可信的数据库访问记录非常困难,大多数此类系统并不能保证完整性。
而在云上实现同类系统只需要开启云厂商的审计服务,就可以在技术上满足大多数监管单位的要求。或者换一个角度来看——传统的IDC上没有面向业务层的应用或服务,IDC运营商要做的就是找到渠道代理商,把服务器等一堆设备打包卖出去,它卖的其实是基础的算力,就类似于山西的煤老板一车一车地对外卖地里挖出来的煤炭。
而云上面是要有面向业务层的应用和服务的,云厂商必须形成一整个围绕在自己周边的生态体系,不断提供/更新应用和服务,就类似于这样的云才是合格的云计算,才有持久生命力。
最近,我看到有分析文章中把云看作一个操作系统,我认为这种观点是正确的——算力是基础,服务器、计算板卡设备就像是“砖头”,搭建起算力所需的基础设施;而云计算提供的是组织服务能力,把“砖头”提供的算力组织调动起来。从这个角度看,云可不就是一个操作系统吗?只是云管理的不是单机,而是一整个或多个数据中心。
那大模型跟云、算力是什么关系?
大模型的训练需要算力,这很好理解,那大模型跟云是什么关系呢?我们先来看一个案例,ChatGPT训练需要的算力非常庞大,早在GPT-3阶段,微软就砸下近10亿美元,专门为训练ChatGPT打造了一台超算——上万张英伟达A100芯片打造,甚至专门为此调整了服务器架构。
我们且不说上万张A100芯片耗资巨大,事实上,众所周知的原因,哪怕我们有钱也买不到这么多A100芯片。那怎么办?对于国内同行来说,一个可行的方案是,通过云计算高效、合理地堆算力进行调度,把一个或多个数据中心变成一台超级计算机,来满足大模型的算力需求。
最后一个问题,为什么大模型又成“百模大战”,大模型到底有没有价值?
事实上,我认为,“百模大战”其实是社会资源的极大浪费,大家都在重复劳动,在做同样的事情。而这个事情又都只是最基础的事情。
按照阿里云王坚的理解,大模型可以分五个层面来理解——
①基础模型训练,即如何用万卡集群把一款模型训练出来,这也是当前大部分大模型处于的阶段,消耗了当前近90%的算力;
②模型调整,在通用模型的基础上,调出适用于个别行业或垂直领域的模型,比如中国移动推出的九天系列大模型就属于这个阶段;
③应用模型,这是独立于通用模型,而是由其他类型数据训练得来,比如针对某个独立领域的大模型;
④模型应用,将大模型的基础能力跟千行百业的需求结合起来打造系列应用,去解决实际、具体的问题,这才是大模型的价值所在。
⑤将模型及应用融合起来变成一类服务,并应用到用户那里。
所以,与其大家一窝蜂地去搞大模型,一个个去搞基础模型训练,然后费劲巴拉地搞模型调整,还不如基于一两个成熟的基础模型,其他人把资源集中起来去搞模型应用、模型服务,这才是社会化分工的正道。以上是我个人关于云、算力、大模型的一点理解,欢迎指教。