走过2024,AI大模型带来哪些启发?
过去一年,大模型技术的最大变量就是规模秘诀Scaling Law是否继续有效。大洋彼岸,OpenAI的GPT-5迟迟未公布,不过被Sam Altman喻为“新范式开始”的o系列推理模型,也带来了一些意外之喜——让AI多花时间“思考(推理)”,反而能解决一些没训练过的难题,这让大模型能从每次尝试中不断学习,展现出了在科学、数学、代码等领域解决复杂问题的能力。
在这个技术转型期,国内大模型也已经悄然分野。
一种是打造跨行业通用的大模型,向医疗、工业、教育等领域加速渗透;另一种则是继续在前沿领域提升,打造“AI超级学霸”,持续提升针对特定应用场景的质量水平。
“Scaling”是不变的关键词,通过强化学习持续提效
对标OpenAI,Kimi已经取得了引入瞩目的成果。如何看待Open AI o系列带来的深远影响?kimi方面告诉<与非网>,其主要意义在于提升了AI的上限,而这其中,强化学习起到了关键作用。
现在AI提升生产力的方式,要么是提升5%、10%,要么是实现十倍GDP的增长,而强化学习等提效手段能够进一步推动AI的scaling,从而实现更大幅度的提升。另外,从数据资源的角度来看,当前业界普遍担心互联网大部分优质数据已被使用完,难以进一步挖掘数据价值。而强化学习与大模型结合,使得AI可以在有限数据的情况下继续发展,突破数据瓶颈。
Kimi去年11月中旬发布的k0-math 数学模型,在中考、高考、考研以及包含入门竞赛题的MATH等四个不同级别的数学基准测试中,成绩均超越了o1-mini和o1-preview。12月中旬发布的视觉思考模型k1,支持端到端的图像理解和思维链(CoT),不仅推理能力进一步提升,还可以识别几何图形、图表等图像信息。在数学、物理、化学等基础科学领域的基准能力测试中,k1的表现超越了Open AI o1、GPT-4o及 Claude 3.5 Sonnet。
“如果说长文本是月之暗面登月的第一步,那么提升模型深度推理能力则是第二步”,月之暗面创始人杨植麟表示。
大模型的规模法则Scaling laws能否继续有效?杨植麟认为,“Scaling”对AI而言是不变的关键词,但这并不意味把模型做得更大就好,而是要找到有效的方法来Scale,比如更好的数据和方法。他强调,Kimi会越来越关注基于强化学习的方法来Scale,接下来AI发展的方向还是会持续地Scale,只是过程不一样,会更多运用强化学习,在强化学习的过程中生成更多的数据来进行。
不论是OpenAI还是Kimi,新的方向其实意味着,AI大模型正在经历一场“效能革命”,正在从以往的“规模扩张”模式向“效率跃升”模式转变,而这一转变将为AI的未来发展注入强劲动力。
以往,业界往往关注大模型的参数规模和数据量,认为“更大即更好”。但如今开始意识到,单纯的规模扩张已无法满足实际应用需求,必须通过“提效”来实现真正的价值转化。而“提效”的手段是多种多样的,可以是提升模型效率,可以是突破数据资源限制,也可以是打破算力瓶颈束缚……通过提效来最大化大模型的应用价值和产业效益。
大模型走向LLM+LRM,提升“模算效率”对产业落地至关重要
为了准确描述以OpenAI o系列为代表的技术演进,业界提出了LRM(Large Reasoning Model)这一全新概念,也标志着大模型技术进入了一个崭新的发展阶段。
相较于LLM,LRM展现出了显著的技术进步。LRM不再局限于简单的文本生成和预测,而是专注于复杂的多步骤推理任务,采用链式思维(Chain-of-Thought)推理方法,将复杂问题分解为可管理的步骤,并通过强化学习(RL)不断提升决策能力。在架构上,LRM具备动态调整推理路径的能力,相比LLM,能更好地适应复杂任务场景。
根据浪潮信息方面的解释,LRM并非取代LLM,而是与之形成互补关系。因为在实际应用中,LLM擅长自然语言理解、文本生成等基础能力,与LRM的深度推理能力相结合,能够创造出更强大的AI系统。这种LLM+LRM的协同模式正在成为未来AI应用的主流发展方向,为各个领域带来更多可能性。
浪潮信息告诉<与非网>,在有限的算力资源条件下,实现算力消耗更低、推理和训练效果更优的大模型开发,已经成为产业当前的重点趋势,提升“模算效率”对大模型产业落地至关重要。
在保证模型智能高水平的基础上,有效降低模型落地的算力门槛,将能够为各行各业带来更高效、更经济的AI解决方案,加速智能技术在千行百业的普及和应用。
浪潮信息正在通过算力算法协同创新,持续提升“模算效率”。2024年,浪潮发布的混合专家模型(MoE)“源2.0-M32”,通过算法、数据、算力的创新,显著提升了算力效率,降低了训练、微调和推理成本。在激活37亿参数下,源2.0-M32实现与700亿参数LLaMA3相当的性能,算力消耗仅为后者的1/19。
未来,浪潮信息将继续优化算法和模型架构,降低模型在预训练、微调和推理等关键应用场景中落地的算力门槛。
后训练和推理阶段,算力基础设施面临全新挑战
两年前,关于大模型Scaling Law的讨论更多集中在预训练阶段。但去年,随着Scaling law扩展到后训练和推理阶段,算力基础设施构建面临全新挑战。
目前,业界发展出三种关键的Scaling law:Pre-training(预训练)scaling law,关注模型预训练阶段的参数量、数据量与算力的关系;Post-training(后训练)scaling law,揭示了微调阶段中数据质量与模型迭代的互动机制;Inference(推理)scaling law,展现了推理阶段投入更多计算资源能带来性能提升的规律。
OpenAI的实践显示,从基础模型到reasoning model的转换过程中,后训练阶段所需的计算量甚至可能超过预训练阶段。
为什么后训练阶段的计算资源需求会如此密集?浪潮信息方面告诉<与非网>,主要源于两个方面:首先是数据生成的规模。为了训练1000万个推理问题,系统需要生成数百万亿个标记,覆盖数千亿条轨迹。随着问题集的扩大和领域的拓展,生成的数据量呈指数级增长,远超预训练阶段的数据规模。
其次,是后训练过程的特殊性——其关键阶段强化学习大部分情况下需要模型实时生成响应并接受评估反馈。这种动态训练模式带来了独特的计算架构挑战:由于推理效率相对较低,且在整个过程中占据高达80%的计算量,系统需要精心设计,以在同一计算任务中平衡推理和训练的资源分配,确保整体训练效率。
对于推理阶段来说,由于更注重低时延,因此算力系统设计将会更加复杂。
训练任务可以通过流水线并行和数据并行来扩展规模(scale out),以提升吞吐量。然而,推理任务更注重延迟性能,只能通过在单个节点内增加AI芯片(scale up)的方式,采用张量并行等策略来缩短单个请求的处理时间。这种根本性的差异,将会使得推理系统的设计和优化变得格外复杂。
算力优化趋势——应用为导向、系统为核心
市场对算力的衡量标准,将会从最初的关注硬件性能,越来越注重整体方案的效率和应用效果。在这一趋势下,如何继续进行算力优化?
浪潮信息方面分享,一是以应用为导向评估算力水平会成为重点趋势,二是需要以系统为核心,提升算效水平。
浪潮信息和中国信通院联合编写的《人工智能算力高质量发展评估体系报告》指出,“高算效”应该成为评估高质量算力的重要特征指标。所谓“高算效”,是指在提高算力理论算效的同时,考虑更高的实测性能和资源利用率。
其中,实测性能体现的是应用场景下,单位时间内处理的Token数量、运行时延、模型训练时间、数据处理质量等指标。目前,业界存在算力集群实测性能和理论性能差距过大的问题,部分算力实际性能甚至不足理论性能的10%。
资源利用率则关注的是算力资源利用水平。公开数据显示,传统模式下智算中心GPU利用率平均数值低于30%。这是兼顾设计维度和短期、长期运行维度的综合指标,有助于破解算效水平不高、算力资源利用率低等难题。
如何提高面向应用的算力效率?浪潮信息认为应该以系统设计为核心,围绕四大算力环节提升算效水平:在生产算力方面,整合高性能部件,打造多元异构的强大算力机组;在聚合算力方面,运用系统工程方法,构建高效的算力中心集群;在调度算力方面,通过硬件重构和软件定义对AI芯片进行聚合池化;在释放算力方面,聚焦于模型算法、框架、工具的优化完善。
写在最后
如果要总结过去一年,我们从大模型激烈竞争中学到的事情,“效能”是绝对的重点,不论是从运行效率、成本效益还是资源优化等任何一个角度来看。
随着AI大模型从训练阶段的“暴力美学”,走向实际商用阶段的“精打细算”,一场关乎AI未来的“效能革命”悄然兴起,而核心就在于从“规模扩张”向“效率跃升”转变,这将为AI的持续发展注入强劲动力。