后发而先至的腾讯混元大模型，到底有哪些技术亮点？

2023年的夏天已经结束了，但是，围绕AIGC 大模型的关注热度，却丝毫没有衰退的意思。

在过去的大半年里，我们亲眼见证了大模型浪潮的崛起，甚至可以说是疯狂。截止7月，国内的大模型数量，已经超过130个。

这些大模型的创造者，既有国有及民营企业，也有大学、科研院所等研究机构。从某种意义上来说，发布大模型，已经成为宣示自身实力的一种方式。

不知道大家有没有注意到，国内互联网大厂百度和阿里，都早早推出了自家的大模型。而身为BAT“三巨头”之一的腾讯，却一直很低调。

几天前，9月7日，在2023腾讯全球数字生态大会上，腾讯自家的通用大语言模型——腾讯混元大模型终于亮相了。

为什么腾讯的大模型“不着急”？是他们不重视这场科技浪潮吗？还是说，他们的AI技术不足，在竞争中落后于人？

很显然，这些说法都不对。

ChatGPT是AIGC大模型浪潮的导火线，但是，它并不是大模型的最早开端。

业界对大模型的研究，其实早几年就已经开始了。当时，AIGC并没有这么高的热度。2022年底，ChatGPT横空出世，展现出惊人的自然语言能力，才彻底激发了整个社会对大模型的关注。

正如前面所说，很多企业之所以不惜一切代价搞大模型，完全是为了追逐“风口”。

腾讯集团副总裁蒋杰在采访中介绍：“在腾讯内部，混元已经内测很久了，不是现在第一天才有。”腾讯是国内最早研究大模型的企业之一。2021年，腾讯推出了千亿规模的NLP大模型。2022年，腾讯推出万亿参数的 NLP 稀疏大模型。换言之，他们的大模型研究，是国内领先的。

ChatGPT火了之后，腾讯更加理性地思考了自己的大模型战略，提出了四大灵魂拷问：

1、自己为什么要搞大模型？

2、自己的大模型，要怎么搞？

3、自己的大模型，要搞成什么样？

4、搞出大模型之后，到底怎么用？

在经过审慎思考和激烈讨论之后，他们终于理清了自己的答案，按照自己的节奏，稳步向前推进。

腾讯混元大模型，就是在这样的背景下诞生的。

接下来，我们不妨仔细看看，腾讯混元大模型，究竟是如何解答这四个灵魂之问的。

█ 问题1：为什么要搞大模型？

今年3月，腾讯总裁兼投资委员会主席刘炽平，在财报电话会议上曾经表示：“AI将成为公司未来业务增长的放大器。生成式AI和基础模型技术可以补充优化腾讯的业务。…… （大模型）将在未来对每个业务线都起到正向补充作用。同时，这也有助于推出新业务。”

他还表示，“我们希望沿着正确的路线踏实前进，不急于求成，先打好基础，再追求新进展，我们的第一款产品将会是多次迭代之后的产品，整个过程将是长期的。”

他的表态，其实已经说明了腾讯对大模型的战略基调——紧密结合自身业务线，稳步推进，长期迭代。

在发布会上，腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生也提到：“大模型需要基于产业场景，与企业数据融合，才能释放出最大的价值。”

也就是说，腾讯不会为了搞大模型而搞大模型。既然要搞，就是冲着实用性去的。

基于这个目标搞出来的混元大模型，是“从实践中来，到实践中去”的实用级大模型。它关注的不是推出速度和评测跑分，而是如何真正与实际场景结合，满足用户的真实需求。

█ 问题2：大模型，到底该怎么搞？

大模型是一场技术博弈。既然决定要做，就必须做出差异化的竞争优势，找准技术路线。

腾讯混元大模型，最大的特点，就是——全链路自研。

行业里现有的很多大模型，都是开源大模型。东西拿来就用，依葫芦画瓢，当然推出速度会快。

蒋杰表示，腾讯是一个海量高并发的业务，开源的架构并不适应腾讯，一定要走出一套基于自主体系的研发之路。唯有自研，才能完全掌握技术内核，将大模型更好地融入到自身的技术栈中。所以，他们走上了更加具有挑战性的自研之路。

腾讯混元大模型从第一个token开始从零训练，掌握了从模型算法到机器学习框架，再到AI基础设施的全链路自研技术。

算法方面，腾讯在预训练上从零启动训练，优化预训练算法及策略，精调及强化学习，改进注意力机制，并开发了思维链新算法。

机器学习框架方面，腾讯采用的是自主研发的机器学习框架Angel，训练速度相比业界主流框架提升1倍，推理速度比业界主流框架提升1.3倍。

基础设施方面，采用基于云星星海自研服务器的新一代HCC高性能算力集群，搭载了超强算力GPU，性能提升了3倍。

算力集群所基于的网络底座——星脉，具备业界最高的3.2T通信带宽，可以为AI大模型带来10倍通信性能提升。通过自研TiTa协议和自研TCCL通信库，星脉网络可将网络利用率从普通以太网的60%提升到90%以上，极大提高整体集群的算力利用率。

根据验证，腾讯新一代计算集群可以帮助混元NLP大模型训练在同等数据集下，将训练时间由50天缩短到4天。

█ 问题3：大模型，要搞成什么样？

全链路自研，投入虽然大，但回报也是显著的。

腾讯混元大模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。

相比于业界已有的大模型，腾讯混元大模型在可靠性和成熟度方面，有巨大的提升。

首先，它可以降低大语言模型的幻觉比例。

使用过大模型的读者都知道，大模型很容易出现“一本正经胡说八道”的问题。也就是说，AI模型生成了不属于现实世界的内容。这就是“幻觉”。“幻觉”是大语言模型每一个厂家都应该面临的重要问题，无论技术做到什么程度，在当前的模型架构下，都无法回避“幻觉”。

针对“幻觉”问题，当前业界普遍的解决方式是采用外挂插件，即给大模型“外挂”一个知识库，使其在推理时进行检索，基于检索结果再进行输出，提高正确率。

这个方式，在遇到复杂任务时，效果有限。

腾讯混元大模型所采取的方式，是在预训练阶段，就通过“探真”算法，进行事实修正。它摆脱了对外挂的依赖，有效降低了复杂任务中的幻觉。

根据测试，经过预训练算法及策略的整体优化后，混元大模型相比其他主流开源大模型，幻觉比例降低了30%-50%。

更多的理性，更少的“胡说八道”

其次，混元大模型的“陷阱”识别能力大幅提升，可以更好地抗拒“诱导”。

人们在使用大模型时，经常会对它进行“调戏”。也就是说，问一些刁钻问题，给大模型设置“陷阱”，得到令人啼笑皆非的答案。

腾讯通过强化学习的方法，让混元大模型学会识别“陷阱”，对“调戏”说不，提升应用的安全性和智能感。根据数据显示，面对安全诱导类问题，混元大模型的拒答率提升了20%。

拒绝“挖坑”

除了上面提到的可靠性改进之外，混元也大幅提升了成熟性。

混元大模型覆盖了短文本和千字级别长文本生成能力。

当前市面上大模型在超长任务处理上很难实现。腾讯通过位置编码优化，提升长文的处理效果和性能，结合指令跟随优化，让产出内容更符合字数要求，从而提升超长文本的生成和续写能力。

在逻辑思考能力上，混元大模型持结合实际场景推理决策。

在大模型训练中，一些团队会让大模型通过“死记硬背”的方式学会中小学的数学题。但是在现实生活中，靠“背题”是不够的，还需要让大模型具备理解上下文的能力。腾讯推出思维链新策略，有效强化模型对问题拆解和分步思考的倾向。

以上这些特性，使得混元大模型在使用体验上和传统大模型有明显区别。它的智能化程度更好，表现更加稳定，更像是一个真正的专家和助手。

在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中，混元大模型共测评了66个能力项。在“模型开发（共测试29个能力项）”和“模型能力（共测试37个能力项）”这两个重要领域的综合评价中，均获得了当前的最高分。

█ 问题4：混元大模型，到底怎么用？

前面我提到，混元大模型是“从实践中来，到实践中去”的实用级大模型。为了充分发挥混元的实用价值，腾讯率先将自己的众多互联网业务与混元进行结合、落地。

目前，腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等50多个腾讯内部业务和产品，已经接入腾讯混元大模型测试并取得初步效果。

腾讯机器学习平台部副总经理王迪提到，腾讯混元大模型和各个产品的结合，并不是一种强制绑定的关系，而是更关注产品在用户体验上的优化，关注哪些地方可以通过AI提效。

例如，基于混元的腾讯会议AI小助手，可以快速实现会中问答、会议摘要、会议待办项等多种事项。

再例如，基于混元的腾讯文档智能助手功能（内测中），不仅支持数十种文本创作场景，还能生成上百种专业文书规范，以及用自然语言生成数百种Excel公式等。

王迪表示，在将大模型的能力和业务场景结合的过程中，需要做大量的工作，比如怎么把混元大模型的基础指令理解能力、文字总结能力与会议APP里AI的能力和会议内容生成能力结合。如果只是单纯将大模型直接放进去，短期不一定真的能够对业务带来很大的提升。一定是针对业务场景进行专门的优化和提效，才能达到更好的效果。

在混元大模型的研究过程中，其实就已经从腾讯丰富的应用场景中进行了技术积累。场景锻炼了模型，模型反过来服务场景，形成了良性循环。

蒋杰表示，腾讯混元大模型团队关注的首先是做好技术本身，回归本质，做好技术的突破和路径规划。在内部，会把混元所有的能力开放给腾讯所有的业务。

内部业务场景的实践，是为外部服务开放做准备。在发布会上，蒋杰郑重宣布：腾讯混元大模型已正式通过腾讯云对外开放，助力全行业。

混元大模型将作为腾讯云MaaS服务的底座，用户不仅可以直接通过API调用混元，也可以将混元作为基底模型，为不同产业场景构建专属应用。

█ 结语

腾讯对四大灵魂之问的探索，最终为混元大模型的问世奠定了基础。

正所谓“方向对了，努力才有意义”。腾讯在喧嚣躁动中坚持理性思考，在找准目标后，果断投入，进行艰苦自研。最终，他们拿出了能经受考验的产品，也走出了自己的独特道路。

他们的做法无疑是正确的，也带给整个行业以启示。在百模大战逐渐升级的今天，很多公司都将面对自己的灵魂拷问。

大浪淘沙沙去尽，沙尽之时见真金。唯有那些给出正确答案的大模型，才能笑到最后，成为真正的赢家。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MCF52259CVN80	1	NXP Semiconductors	32-BIT, FLASH, 80MHz, RISC MICROCONTROLLER, BGA144		$48.73	查看
STM32F103VET6TR	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 512 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下载ECAD模型	$13.06	查看
MK22FX512VMC12	1	NXP Semiconductors	RISC MICROCONTROLLER		$9.31	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MCF52259CVN80

NXP Semiconductors

32-BIT, FLASH, 80MHz, RISC MICROCONTROLLER, BGA144