产业丨LiveBench榜单比拼，阶跃星辰成为国内大模型第一

作者 | 方文三

目前生成式AI产业尚处于发展的初期阶段。

中国工程院院士、北京大学博雅讲席教授高文指出，如果将人工智能的发展与人类成长相类比，那么通用人工智能目前可能仅处于蹒跚学步的幼儿阶段。但从应用的角度来看，人工智能已经能够解决生产、社会及服务领域的问题，因此可以先行投入使用，无需等待其达到完美状态。

LiveBench榜单公布，阶跃星辰位居国内首位

国际权威榜单LiveBench官网最新公布的排名显示，阶跃星辰自主研发的万亿参数语言大模型Step-2在榜单中位居国产基座大模型之首。

其成绩与OpenAI的o1-mini-2024-09-12模型相近，且超越了GPT-4o-2024-08-06、gemini-1.5-pro-002等国际知名模型。

目前，仅OpenAI和Anthropic的模型成绩位于阶跃星辰之上。

在评测中，Step-2取得了86.57的平均分，而gemini-1.5-flash-002则获得了84.55分，这两个模型是唯二超过80分的。

紧随其后的是meta-llama-3.1-70b-instruct-turbo，其得分为79.08分。

以推理能力著称的o1-preview-2024-09-12也取得了77.72分。

在本次榜单中，阶跃星辰是唯一跻身前十名的中国语言大模型，全球排名第五。

同时上榜的其他大模型公司包括通义千问和深度求索，但均未能进入前十名，分别位于第十三和第二十三名。

在榜单所包含的多项评估标准中，Step-2在IF Average（指令跟随）的评估上以86.57分的成绩位居榜首，超越了所有国内外的语言大模型。

LiveBench是由AI科学家杨立昆（Yann LeCun）联合Abacus.AI、纽约大学等机构共同推出的评估平台。

该榜单专门为大型模型设计，从数学、推理、编程、语言理解、指令遵循和数据分析等多个复杂维度对模型进行评估，包含6个类别的17个不同任务，每月更新新问题。

根据历史榜单数据，上榜者通常为国外科技巨头，国内大模型能够进入前十名的情况极为罕见，大多数甚至难以上榜。

截至2024年，每个月的排名中，仅有通义千问的开源大模型Qwen2-72B在6月14日发布的LiveBench评估中上榜，位列第八。

自主研发万亿参数MoE大型语言模型

今年三月，阶跃星辰推出了Step-2语言大模型的预览版，此举标志着国内首个由创业公司推出的万亿参数模型的诞生。

Step-2在语义理解、指令遵循、内容创作等多个方面表现出色。

目前，阶跃星辰面向消费者的智能助手[跃问]已经集成了Step-2这一万亿参数语言大模型。

在六项类别任务中，step-2-16k-202411在指令遵循（IF Average）评分上位居榜首，超越了OpenAI的o1-preview-2024-09-12。

具体而言，Step-2展现了卓越的理解能力，能够从上下文中推断用户需求，精确捕捉用户在模糊指令中的真实意图，提供更准确、个性化的响应；

在知识覆盖范围和深度方面，Step-2不仅能够处理常见领域的知识，还能深入理解和回答特定领域或边缘分布中的复杂问题；

在生成高质量、富有创意的文字内容的同时，Step-2还具备出色的细节控制能力，能够根据用户的指令对文本进行精确调整和优化。

Step-2仅用四个月时间便与GPT-4并驾齐驱，又经过四个月，它在部分能力上实现了对Gemini-1.5和GPT-o1的超越，进步之快令人瞩目。

然而，这一成就并不令人意外，因为Step-2自诞生之初便因其特殊的MoE架构而被视为极具成长潜力的基础模型。

从零开始构建和训练MoE模型

阶跃星辰之所以能在首次参与LiveBench评测时取得如此卓越的成绩，与其自主研发的Step-2大型语言模型的两个关键特性。

与其拥有万亿级别的参数量和采用的Mixture of Experts（MoE）架构密切相关。

在大规模语言模型（LLM）的发展历程中，MoE架构因其独特优势而受到越来越多的关注。

该架构通过选择性地激活部分专家网络，不仅提升了模型性能，同时保持了较高的计算效率。

目前，MoE模型的训练主要有两种策略：一种是基于现有模型的upcycle（向上复用）训练，另一种则是从零开始训练。

Upcycle训练利用现有模型进行训练，其优势在于对计算资源的需求较低，训练效率高。

由于可以复用已有的模型参数，训练过程更为迅速。这种方法适合在资源有限的情况下快速开发和验证模型。

然而，upcycle训练的缺点在于模型性能的上限较低。

基于现有模型的拷贝可能导致专家网络同质化，限制了模型的多样性和最终性能。

相比之下，从零开始构建和训练MoE模型虽然面临更高的训练难度和更大的资源投入，但能够带来更高的模型性能上限。

这种方法允许开发者设计更为复杂和多样化的专家网络，使得每个专家网络都能学习到更加独特和专门化的特征。

同时，它也提供了更大的灵活性，开发者可以根据具体需求对模型架构进行精细的调整和优化。

在研发阶段，阶跃星辰对算法架构的创新成为Step-2制胜的关键。

在Step-2训练阶段，阶跃星辰的系统团队成功攻克了6D并行、极致显存管理、完全自动化运维等关键技术难题。

在构建Step-2 MoE架构的过程中，阶跃星辰并未沿用upcycle（向上复用）的策略，而是选择从零开始进行训练。

通过采用部分专家参数共享、异构化专家设计等创新手段，对MoE架构设计进行了革新。

这也意味着Step-2每次训练或推理所激活的参数量都超过了市面上大部分Dense模型。

通常而言，更大参数的语言模型意味着更佳的交付效果，特别是在指令遵循、内容创作和语义理解方面。

半年时间Step系列通用大模型完成叠代

2024年3月，阶跃星辰推出了具有千亿参数的多模态大模型的初始版本Step-1V。

到了7月的WAIC期间，阶跃星辰连续发布了三款Step系列通用大模型新品。

相较于阶跃星辰自主研发的千亿参数级语言大模型Step-1，Step-2在综合能力上提升了近50%，在编程、逻辑推理、数学以及知识等多个维度上均能更有效地解决问题。

除了正式推出的Step-2万亿参数语言大模型外，还包括了Step-1V的迭代版本Step-1.5V多模态理解大模型，以及Step-1X图像生成大模型。

在短短半年内，阶跃星辰从万亿参数的语言大模型出发，迅速实现了语言模型与多模态模型的并行发展。

得益于Step-2万亿参数大模型的支持，Step-1.5V多模态模型在图像感知和理解能力上得到了全面的提升，并具备了卓越的视频理解能力。

它能够精确地识别视频中的物体、人物和环境，并理解视频的整体氛围与人物情绪。

除此之外，Step-1.5V拥有非常可观的推理能力，能够根据图像内容解答数学题、编写代码、创作诗歌等高级推理任务。

基于这款模型，阶跃星辰还在C端智能助手[跃问]上线了智能视觉搜索功能[拍照问]，用户可以即拍即问，例如拍摄美食图计算卡路里、拍摄场景学习英文单词等。

Step-1X采用了全链路自研的DiT（Diffusion Models with transformer）模型架构，支持600M、2B、8B三种不同的参数量，能够满足不同场景的需求。

此外，Step-1X 具备强大的语义对齐和指令跟随能力，并针对中国元素和文化进行了深度优化，更具有中国风格。

除了在基座模型层面布局全面、快速迭代之外，阶跃星辰在产品化上也迅速推进：智能助手[跃问]和AI开放世界平台[冒泡鸭]，是阶跃星辰面向C端用户推出的两款产品。

[含着金汤匙]出生的AI公司

据信息显示，阶跃星辰成立于2023年4月，至今仅一年多的时间，是一家相对低调的初创公司。

然而，其创始人姜大昕是一位在行业内具有重要地位的人物，曾担任微软全球副总裁，在机器学习、数据挖掘、自然语言处理和生物信息学等领域拥有超过十年的研究和工程经验。

特别是在数据挖掘和行业自然语言处理方面有深入的研究，发表了近200篇相关论文。

阶跃星辰可以说是[含着金汤匙]出生的公司，不仅创始团队实力雄厚，还受到资本市场的热烈追捧。

早在成立初期，阶跃星辰就获得了多家风险投资公司的青睐，其中包括启明创投、五源资本等一线风投，均参与了该公司早前几轮融资。

今年上半年，有消息称阶跃星辰正在进行一轮估值20亿美元的新融资，阿里巴巴也在投资者名单之列。

如果此轮融资成功，阶跃星辰将直接晋升为头部AI独角兽企业。

阶跃星辰开放平台逐渐构建了一个大型模型的[生态伙伴圈]。

在金融财经、内容创作、消费娱乐等多个领域，领先机构纷纷与阶跃星辰建立了技术合作关系。

例如，财联社与阶跃星辰共同研发了国内首个千亿参数的多模态金融大模型——[财跃F1金融大模型]。

大型模型的算法结构极为复杂，对计算能力的需求极高，同时对数据量的要求也相当庞大。

此外，大型语言模型与多模态大型模型在技术路径上也展现出显著的差异性。

鉴于这些挑战，众多企业采取了集中资源、专精一域的策略，专注于发展大型语言模型或多模态模型中的某一个方向。

在国内众多模型制造商中，阶跃星辰公司是少数几个同时在大型语言模型和多模态模型两个领域进行深入布局、并行推进的公司之一。

与业界其他公司通常每半年或每年推出一个新版本相比，阶跃星辰的更新迭代速度显然更为迅速。

阶跃星辰的创始人兼首席执行官姜大昕先生坚信，要达到通用人工智能（AGI）的终极目标，必须遵循一条特定的发展路径，即从单模态到多模态，再到多模态理解和生成的统一，进而构建世界模型，最终实现AGI。

结尾：

根据国际数据公司（IDC）的最新研究报告显示，预计至2028年，全球人工智能产业的支出将达到6320亿美元，几乎是目前水平的两倍，其五年间的复合年增长率（CAGR）预计为29%。

在这一领域中，生成式人工智能被视为主要的增长动力，预计到2028年，该领域的投资支出将高达2020亿美元，占整个人工智能支出的32%，其CAGR高达59.2%。

部分资料参考：阶跃星辰：《LiveBench 最新榜单：阶跃星辰位列中国大模型第一》，雷锋网：《超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一》，智东西：《在[全球最难糊弄榜单]里，阶跃星辰拿下国产第一》，新智元：《[全球最严榜单]，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini》，极客公园：《权威榜单登顶国内第一，阶跃星辰Step-2是如何炼成的》，AI科技评论：《超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一》，甲子光年：《登上[最不可能作弊]的榜单，阶跃星辰Step-2位列中国大模型第一》