加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 有卡不等于有算力,云上集约化算力成最优解
    • 飞天+百炼,阿里云挥出政企智能化服务“组合拳”
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

“模型热”引发政企市场变局,阿里云挥出“组合拳”

09/23 13:30
1310
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

由“模型热”引发的“智算热”仍在持续,大量政企用户一方面看到了大模型技术给业务带来的新突破点,另一方面深深担心成本及算力供应的持续稳定,行业亟需找到一个缓解供需矛盾的“最优解”。

9月19日,在2024云栖大会上,阿里云“上”(上层大模型服务平台)“下”(底层算力)结合,打出一套“组合拳”。一方面,飞天云计算操作系统企业版“智算升级”,将智算能力深度融入专有云平台,实现通用算力、超算、智算的一网调度,满足政企客户“云+AI”协同发展需求;另一方面,大模型服务平台百炼专属版2.0正式发布,可基于公共云VPC和专有云部署,为政企客户安全、快速地开发大模型保驾护航。

“飞天”与“百炼”的双双升级,标志着阿里云智能化服务能力再度提升,为AI时代全面深入政企市场做好了准备。

有卡不等于有算力,云上集约化算力成最优解

当前,“模型热”正在引发一场算力革命。不同于传统IT时代,AI时代对基础设施的性能、效率要求更高,CPU主导的通用计算体系已快速向GPU主导的AI计算体系转移。中国互联网协会最新发布的《中国互联网发展报告(2024)》显示,2024年上半年我国智能算力在算力市场的比重已经超过30%。

作为大模型落地的一个重要标的,政企市场对于AI算力的需求也在持续增长。阿里云智能副总裁、产品解决方案与服务管理总经理霍嘉介绍称:“政企市场主要有三类场景带来了庞大的智算需求。第一类是城市智算,各地都有一些以政府或者政府所管辖的国资企业所投资的智算集群正在快速建设中;第二类是科研智算,像生物、环境、材料、地理(生化环材医)等科研领域对于大模型技术的使用比较多,已经开始出现租用智算集群的现象;第三类是企业智算,这类企业更多的是在探索一些大模型应用的试点场景,这也会带来一些智能算力方面的需求。”

随着一系列新场景、新业态的出现,政企数字化转型的焦点也在发生改变。过去在信息化时代,政企数字化转型本质上是从以流程驱动为核心的传统商业化套件向以数据驱动核心业务再造的方向转变,最典型的案例就是很多企业都构建了数据中台。而今天进入智能化时代,政企数字化转型目标已经转化为结合自身业务场景,利用大模型等AI技术来创造更新的价值。

阿里云智能副总裁、专有云总经理刘国华指出,现在政企客户主要关心两件事,一是供应链韧性的问题,二是成本的问题。大模型技术的快速发展在给政企客户的业务带来新突破点的同时又带来了新的供应链韧性问题和成本问题,因此他们期盼能够建立起一个新的AI基础设施标准,满足“云+AI”协同发展的要求,最大化提升整体的成本效率。

目前来看,大模型智算平台仍面临一些挑战。比如性能方面,模型的训练背后需要非常强算力的基础设施支撑,如今,万卡已经成为模型训练的标配,集群规模的不断扩大,无疑对底层AI基础设施的处理效率提出更高的挑战;再比如,训练任务的稳定性,GPU服务器出故障的概率比传统X86架构的CPU服务器出故障的概率要高得多,如何让一个集群稳定支持任务长周期的运行非常重要;此外,多芯兼容也是一个难题,智算平台要变得又好用又易用,就必须能够平滑地使用不同芯片所提供的算力。

业内普遍认为,智算虽“火”,但市场上还存在很多用卡效率不高的情况。换言之,有卡也不一定有算力。GPU卡要把它真正用起来,在工程上面临非常大的挑战。因此,智算不仅仅是卡的问题,而是一个软硬件协调的系统,涉及算、存、网等多种核心能力,缺一不可。

正如霍嘉所言:“今天我们所说的大模型算力基础设施,绝对不是把一堆硬件简单堆砌在一起,而是通过云计算平台把芯片、服务器、网络、存储有机调动起来,从而形成云上集约化的高效算力。”

飞天+百炼,阿里云挥出政企智能化服务“组合拳”

面对政企市场在AI时代的新需求,阿里云拿出了自己的“看家本领”,即从底层算力到上层大模型服务平台的全栈式智能化服务体系。“下”有飞天企业版,与阿里云公共云技术同根同源,采用同一套技术架构,通过一云多芯、一云多算等核心能力,为AI大规模在政企市场落地提供底座支撑;“上”有百炼平台,集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具,让政企客户不再被底层算力部署、模型预训练、工具开发等复杂工作困扰,降低AI应用门槛和使用成本。

实际上,历经了10年的发展与沉淀,阿里云的全栈式智能化服务已融入政企市场各个领域。比如,在汽车制造领域,中国一汽基于阿里云通义千问打造的大模型应用GPT-BI可5秒生成智能报表,辅助业务决策,模型准确率达92.5%,这意味着GPT-BI在研产供销多种场景上都具有优秀的预测能力和泛化性能。

在安全防控领域,陕煤集团旗下的建新煤矿使用通义大模型同时监控十余座矿山的生产环境,实现了从“主要靠人防”到“更多靠技术防”的转变,为安全防控打开了新思路。

在医药研发领域,阿斯利康基于通义大模型搭建的药品不良反应自动分析和总结平台,使药物安全把控效率提升300%,准确率从90%提升至95%,这将提高药物开发效率。

在科研探索领域,中国科学院国家天文台人工智能组基于阿里云通义千问打造的天文大模型“星语3.0”,可实现自主控制望远镜进行观测、分析观测结果,智能地给出下一步观测建议,将科研人员从繁琐的观测中解放出来,更加专注于研究。

记者了解到,今年以来,阿里云飞天企业版已实现三大技术升级。首先,支持多芯的GPU融合管理。具体来看,飞天企业版可支持23款不同的GPU接入管理;公专一体的网络架构可支持单一集群1.5万卡的建设;通过GPU池化和虚拟化技术,支持异构GPU资源实现统一的池化管理,可将整个GPU的利用率提升100%;针对推理场景进行性能的优化,可将通信带宽整体提升100%以上,模型的吞吐量提升23%。

其次,通过AI PaaS层来提升整个智算的落地效率。“我们可提供一站式AI大模型开发与服务能力,并兼容多个主流开源的模型,希望给客户更多的选择,同时也提供了一个统一的运营管理平台,提供算力运营、模型运营以及整体运营的支撑,帮助客户构建可运营的AI平台,让他们可以基于阿里云的平台去构建自己的模型生态。”刘国华表示。

此外,阿里云还对自己的云平台进行了智能化升级。一方面,基于过去十年的运维经验推出了智能运维大模型“云小智”,日常运维效率能提升50%;另一方面,通过探索开发智能化,让整个云平台快速向智能化方向进化。

“今天,很多用户把大模型应用当成一个‘目的’,但实际上我们应该先弄清楚,大模型到底能做什么事儿?你的场景是什么?”阿里云智能副总裁、解决方案研发部总经理曾震宇强调,“大模型相当于一把‘锤子’,它只是一个提升效率的工具。只有使用者能够对它有一个合理恰当的预期,知道在自己的业务场景中,大模型究竟能解决什么问题,才能让它真正发挥出自己的价值。”

作者丨宋婧编辑丨赵晨美编丨马利亚监制丨连晓东

阿里巴巴

阿里巴巴

阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。

阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。收起

查看更多

相关推荐

电子产业图谱