用技术望远镜看国内大模型：文心闪耀双榜领跑

中国大模型应用，正在进入“可观测期”。

《中国大模型中标项目监测报告（2024年5月）》中显示，截至5月，中国大模型的相关中标金额已经超过2023年全部中标项目的披露金额。

在大模型全面落地四处开花的同时，大模型正摆脱“不可观测”状态，过去由于大量大模型应用在B端，信息相对封闭，对于产业来说，他们很难清晰获知大模型技术水平、擅长领域、落地能力，无形中增加了智慧化转型的决策成本。

随着大模型技术评测体系的逐渐成熟，我们仿佛拥有了天文望远镜，可以在群星闪耀中，找到那颗最耀眼的星。

最近，国际权威机构IDC发布了《中国大模型市场主流产品评估，2024》，智源研究院打造的FlagEval天秤大模型评测平台也发布了最新一期模型评测排行榜单，两项评测中百度文心大模型实现了双榜夺魁。

“望远镜”背后技术评价机制

我们可以简单看看，这两架“天文望远镜”分别采用了哪些评价机制。

IDC的评估分为基础能力和应用能力，其中基础方面涉及问答、推理、创作、数学、代码等能力，应用方面既考验toC通用场景，也考验金融、零售、法律等toB细分场景。

尽管有GPT-4这样的有力对手，文心一言仍然在七大维度全面领先。

智源研究院打造的FlagEval天秤大模型测评平台发布于2023年，面向视频、语音、多模态等多个领域，在FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

在闭源对话模型榜单中，文心大模型4.0以89.72的综合评分排名第一，OpenAI的GPT-4o等位列其后。

可见不论是从全领域能力角度进行评估，还是考察至关重要的大语言水平，文心一言毫无疑问都是中文大模型的榜首，是星海中光芒最耀眼的一颗。

技术之光

抬头仰望星空时，我们看到的，其实是星星几年，甚至几十几百年以前留下的掠影。

同样，想要让大模型从“不可观测”变为“可观测”，除了对当下的技术能力进行评测，我们也要回溯光芒的源头，也就是大模型的技术内核。

从文心大模型来看，这种技术之光可以分为两个层面：

第一层，是技术投入的“原生光芒”。

百度对于深度学习的探索挖掘，包括对AI技术的应用，已经有十数年之久。在大模型热还未被掀起的2019年，百度就打造了第一代文心大模型体系，从而才有了建立在文心大模型之上的文心一言。

如今经过数次迭代，文心大模型在理解、生成、逻辑、记忆四大能力让其他厂商难以望其项背。IDC报告中就显示，在数学类和代码类等考验模型逻辑、推理等能力的评测中，百度文心大模型体现出了强大的体系化思维、逻辑思维和抽象思维能力。

能力迭代背后，是文心大模型有条不紊的全面技术布局。

比如通过文心飞桨的联合调优，通过高效算力和自研框架来提升大模型的训练效率，增加技术的迭代速度。

又比如面对近年来爆火的智能体Agent技术，文心大模型第一时间推出了文心智能体平台。在基础模型能力上叠加思考增强训练，以基础模型+思考模型的形式，让大模型更接近于人类的学习、理解和执行模式。

像百度自己，就通过这种模式打造了代码智能体和智能代码助手Comate，目前Comate生成代码整体采纳率已达46%，新增代码中生成比例已达27%。IDC的报告中我们也能发现，在代码类所有6个细分维度中，百度均入围优势厂商。

对于技术研发的深埋与前瞻，让这颗星体源源不断的释放着创新之火，点亮宇宙的一隅。

第二层，是产业协作的“折射光芒”。

文心大模型能力的来源，除了自身的研发投入，还有广泛的产业实践。

截至目前，文心一言累计用户规模已达2亿，日均调用量也达到了2亿。这一数字在同类生成式AI产品中一骑绝尘。

在toB领域，百度一方面将文心大模型全面落地于自身业务中，如搜索、地图、信息流。同时百度智能云还推出了千帆大模型平台，打造一站式企业级大模型开发平台。不久前，文心大模型还对外免费开放了ERNIE Speed、ERNIE Lite两款主力模型。

在不断对外开放的过程中，文心大模型的调用量呈几何式增长，合作伙伴与案例也越来越多。从国家电网、南方电网、中国航天这样的国之重器，到金融保险领域的浦发银行、泰康保险，再到终端领域的荣耀、三星，媒体领域汽车之家……在不断与合作伙伴共建行业大模型的过程中，文心大模型已经实现了中国最为广泛的产业落地规模。

在广泛的产业合作中，文心大模型得以被真实应用场景滋养，不断从中发掘细节需求，进而针对性地提升技术能力。

举例来说，在大量的实践中百度得以发掘，大模型落地过程中，效果、效率和成本都是重要考量。因此，推出了多模型推理技术来提升推理效率，以降低落地成本。

有对周围产业伙伴光芒的“折射”，我们观测到的星光可以更加立体。文心大模型的成就不仅仅来自机构评测的认可，更来自一个个坚实的落地案例。

大模型星光如何照耀产业星球

当我们望见星光时，它正在向轨道更远处运行着，从大模型元年，走入了大模型落地元年。

《中国大模型中标项目监测报告（2024年5月）》中显示，今年5月份大模型中标项目数量创下了新高。毫无疑问，随着大模型“不可观测性”逐渐褪去，产业对于大模型的需求，正在进入井喷状态。需求暴涨的情况下，大模型要如何站稳潮头，真正在行业领域站稳脚跟？以文心大模型为例，纵观文心大模型近一年来的动作，仿佛是一场星际旅行，不断从遥远的技术天空贴近我们所在的应用星球。

文心大模型留下了技术的轨迹，通过不断的研发，让大模型更加贴近AGI，在能力层面更适应应用领域的复杂任务。

文心大模型也留下了普惠的轨迹，主力模型的免费开放，落地成本的不断降低，都让大模型更加易用，让更多产业伙伴加入行业大模型的联合创新中。

文心大模型还留下了生态的轨迹，百度对于开发者生态的建设持之以恒，目前已在全国最大AI社区“星河社区”中打造了大模型板块，也推出了智能体平台这样降低大模型应用研发门槛的工具。开发生态的繁荣，让文心具备更多引力，加速向产业目标行驶而去。

有了这三道清晰的轨迹，我们也就能够望见文心，包括整体中国大模型的未来将如何到来。

星移斗转中，产业对于大模型能力与价值的认知正在逐渐清晰。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32F030C8T6	1	STMicroelectronics	Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU	ECAD模型下载ECAD模型	$3.22	查看
ATMEGA128A-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP	ECAD模型下载ECAD模型	$6.7	查看
MK66FN2M0VLQ18	1	NXP Semiconductors	FLASH, 180MHz, RISC MICROCONTROLLER, PQFP144	ECAD模型下载ECAD模型	$48.66	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32F030C8T6

STMicroelectronics

Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU