加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • █ 问题1:为什么要搞大模型?
    • █ 问题2:大模型,到底该怎么搞?
    • █ 问题3:大模型,要搞成什么样?
    • █ 问题4:混元大模型,到底怎么用?
    • █ 结语
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

后发而先至的腾讯混元大模型,到底有哪些技术亮点?

2023/09/13
3505
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

2023年的夏天已经结束了,但是,围绕AIGC大模型的关注热度,却丝毫没有衰退的意思。

在过去的大半年里,我们亲眼见证了大模型浪潮的崛起,甚至可以说是疯狂。截止7月,国内的大模型数量,已经超过130个。

这些大模型的创造者,既有国有及民营企业,也有大学、科研院所等研究机构。从某种意义上来说,发布大模型,已经成为宣示自身实力的一种方式。

不知道大家有没有注意到,国内互联网大厂百度和阿里,都早早推出了自家的大模型。而身为BAT“三巨头”之一的腾讯,却一直很低调。

几天前,9月7日,在2023腾讯全球数字生态大会上,腾讯自家的通用大语言模型——腾讯混元大模型终于亮相了

为什么腾讯的大模型“不着急”?是他们不重视这场科技浪潮吗?还是说,他们的AI技术不足,在竞争中落后于人?

很显然,这些说法都不对。

ChatGPT是AIGC大模型浪潮的导火线,但是,它并不是大模型的最早开端。

业界对大模型的研究,其实早几年就已经开始了。当时,AIGC并没有这么高的热度。2022年底,ChatGPT横空出世,展现出惊人的自然语言能力,才彻底激发了整个社会对大模型的关注。

正如前面所说,很多企业之所以不惜一切代价搞大模型,完全是为了追逐“风口”。

腾讯集团副总裁蒋杰在采访中介绍:“在腾讯内部,混元已经内测很久了,不是现在第一天才有。”腾讯是国内最早研究大模型的企业之一。2021年,腾讯推出了千亿规模的NLP大模型。2022年,腾讯推出万亿参数的 NLP 稀疏大模型。换言之,他们的大模型研究,是国内领先的。

ChatGPT火了之后,腾讯更加理性地思考了自己的大模型战略,提出了四大灵魂拷问:

1、自己为什么要搞大模型?

2、自己的大模型,要怎么搞?

3、自己的大模型,要搞成什么样?

4、搞出大模型之后,到底怎么用?

在经过审慎思考和激烈讨论之后,他们终于理清了自己的答案,按照自己的节奏,稳步向前推进。

腾讯混元大模型,就是在这样的背景下诞生的。

接下来,我们不妨仔细看看,腾讯混元大模型,究竟是如何解答这四个灵魂之问的。

 问题1:为什么要搞大模型?

今年3月,腾讯总裁兼投资委员会主席刘炽平,在财报电话会议上曾经表示:“AI将成为公司未来业务增长的放大器生成式AI和基础模型技术可以补充优化腾讯的业务。…… (大模型)将在未来对每个业务线都起到正向补充作用。同时,这也有助于推出新业务。”

他还表示,“我们希望沿着正确的路线踏实前进,不急于求成,先打好基础,再追求新进展,我们的第一款产品将会是多次迭代之后的产品,整个过程将是长期的。”

他的表态,其实已经说明了腾讯对大模型的战略基调——紧密结合自身业务线,稳步推进,长期迭代。

在发布会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生也提到:“大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

也就是说,腾讯不会为了搞大模型而搞大模型。既然要搞,就是冲着实用性去的。

基于这个目标搞出来的混元大模型,是“从实践中来,到实践中去”的实用级大模型。它关注的不是推出速度和评测跑分,而是如何真正与实际场景结合,满足用户的真实需求。

 问题2:大模型,到底该怎么搞?

大模型是一场技术博弈。既然决定要做,就必须做出差异化的竞争优势,找准技术路线。

腾讯混元大模型,最大的特点,就是——全链路自研

行业里现有的很多大模型,都是开源大模型。东西拿来就用,依葫芦画瓢,当然推出速度会快。

蒋杰表示,腾讯是一个海量高并发的业务,开源的架构并不适应腾讯,一定要走出一套基于自主体系的研发之路。唯有自研,才能完全掌握技术内核,将大模型更好地融入到自身的技术栈中。所以,他们走上了更加具有挑战性的自研之路。

腾讯混元大模型从第一个token开始从零训练,掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术。

算法方面,腾讯在预训练上从零启动训练,优化预训练算法及策略,精调及强化学习,改进注意力机制,并开发了思维链新算法。

机器学习框架方面,腾讯采用的是自主研发的机器学习框架Angel,训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。

基础设施方面,采用基于云星星海自研服务器的新一代HCC高性能算力集群,搭载了超强算力GPU,性能提升了3倍。

算力集群所基于的网络底座——,具备业界最高的3.2T通信带宽,可以为AI大模型带来10倍通信性能提升。通过自研TiTa协议和自研TCCL通信库,星脉网络可将网络利用率从普通以太网的60%提升到90%以上,极大提高整体集群的算力利用率。

根据验证,腾讯新一代计算集群可以帮助混元NLP大模型训练在同等数据集下,将训练时间由50天缩短到4天。

 问题3:大模型,要搞成什么样?

全链路自研,投入虽然大,但回报也是显著的。

腾讯混元大模型,拥有超千亿参数规模,预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

相比于业界已有的大模型,腾讯混元大模型在可靠性和成熟度方面,有巨大的提升。

首先,它可以降低大语言模型的幻觉比例。

使用过大模型的读者都知道,大模型很容易出现“一本正经胡说八道”的问题。也就是说,AI模型生成了不属于现实世界的内容。这就是“幻觉”。“幻觉”是大语言模型每一个厂家都应该面临的重要问题,无论技术做到什么程度,在当前的模型架构下,都无法回避“幻觉”。

针对“幻觉”问题,当前业界普遍的解决方式是采用外挂插件,即给大模型“外挂”一个知识库,使其在推理时进行检索,基于检索结果再进行输出,提高正确率。

这个方式,在遇到复杂任务时,效果有限。

腾讯混元大模型所采取的方式,是在预训练阶段,就通过“探真”算法,进行事实修正。它摆脱了对外挂的依赖,有效降低了复杂任务中的幻觉。

根据测试,经过预训练算法及策略的整体优化后,混元大模型相比其他主流开源大模型,幻觉比例降低了30%-50%。

更多的理性,更少的“胡说八道”

其次,混元大模型的“陷阱”识别能力大幅提升,可以更好地抗拒“诱导”。

人们在使用大模型时,经常会对它进行“调戏”。也就是说,问一些刁钻问题,给大模型设置“陷阱”,得到令人啼笑皆非的答案。

腾讯通过强化学习的方法,让混元大模型学会识别“陷阱”,对“调戏”说不,提升应用的安全性和智能感。根据数据显示,面对安全诱导类问题,混元大模型的拒答率提升了20%。

拒绝“挖坑”

除了上面提到的可靠性改进之外,混元也大幅提升了成熟性。

混元大模型覆盖了短文本和千字级别长文本生成能力。

当前市面上大模型在超长任务处理上很难实现。腾讯通过位置编码优化,提升长文的处理效果和性能,结合指令跟随优化,让产出内容更符合字数要求,从而提升超长文本的生成和续写能力。

在逻辑思考能力上,混元大模型持结合实际场景推理决策。

在大模型训练中,一些团队会让大模型通过“死记硬背”的方式学会中小学的数学题。但是在现实生活中,靠“背题”是不够的,还需要让大模型具备理解上下文的能力。腾讯推出思维链新策略,有效强化模型对问题拆解和分步思考的倾向。

以上这些特性,使得混元大模型在使用体验上和传统大模型有明显区别。它的智能化程度更好,表现更加稳定,更像是一个真正的专家和助手。

在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中,混元大模型共测评了66个能力项。在“模型开发(共测试29个能力项)”和“模型能力(共测试37个能力项)”这两个重要领域的综合评价中,均获得了当前的最高分。

 问题4:混元大模型,到底怎么用?

前面我提到,混元大模型是“从实践中来,到实践中去”的实用级大模型。为了充分发挥混元的实用价值,腾讯率先将自己的众多互联网业务与混元进行结合、落地。

目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等50多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

腾讯机器学习平台部副总经理王迪提到,腾讯混元大模型和各个产品的结合,并不是一种强制绑定的关系,而是更关注产品在用户体验上的优化,关注哪些地方可以通过AI提效。

例如,基于混元的腾讯会议AI小助手,可以快速实现会中问答、会议摘要、会议待办项等多种事项。

再例如,基于混元的腾讯文档智能助手功能(内测中),不仅支持数十种文本创作场景,还能生成上百种专业文书规范,以及用自然语言生成数百种Excel公式等。

王迪表示,在将大模型的能力和业务场景结合的过程中,需要做大量的工作,比如怎么把混元大模型的基础指令理解能力、文字总结能力与会议APP里AI的能力和会议内容生成能力结合。如果只是单纯将大模型直接放进去,短期不一定真的能够对业务带来很大的提升。一定是针对业务场景进行专门的优化和提效,才能达到更好的效果。

在混元大模型的研究过程中,其实就已经从腾讯丰富的应用场景中进行了技术积累。场景锻炼了模型,模型反过来服务场景,形成了良性循环。

蒋杰表示,腾讯混元大模型团队关注的首先是做好技术本身,回归本质,做好技术的突破和路径规划。在内部,会把混元所有的能力开放给腾讯所有的业务。

内部业务场景的实践,是为外部服务开放做准备。在发布会上,蒋杰郑重宣布:腾讯混元大模型已正式通过腾讯云对外开放,助力全行业。

混元大模型将作为腾讯云MaaS服务的底座,用户不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

 结语

腾讯对四大灵魂之问的探索,最终为混元大模型的问世奠定了基础。

正所谓“方向对了,努力才有意义”。腾讯在喧嚣躁动中坚持理性思考,在找准目标后,果断投入,进行艰苦自研。最终,他们拿出了能经受考验的产品,也走出了自己的独特道路。

他们的做法无疑是正确的,也带给整个行业以启示。在百模大战逐渐升级的今天,很多公司都将面对自己的灵魂拷问。

大浪淘沙沙去尽,沙尽之时见真金。唯有那些给出正确答案的大模型,才能笑到最后,成为真正的赢家。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
TMS320F28335PGFA 1 Texas Instruments C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85

ECAD模型

下载ECAD模型
$29.61 查看
ATXMEGA128A1U-CUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 100CBGA

ECAD模型

下载ECAD模型
$8.4 查看
ATXMEGA128A4U-MH 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44VQFN

ECAD模型

下载ECAD模型
$5.12 查看
腾讯

腾讯

腾讯于1998年11月成立,是一家互联网公司,通过技术丰富互联网用户的生活,助力企业数字化升级。我们的使命是“用户为本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

腾讯于1998年11月成立,是一家互联网公司,通过技术丰富互联网用户的生活,助力企业数字化升级。我们的使命是“用户为本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相关推荐

电子产业图谱

通信行业知名新媒体鲜枣课堂创始人,通信行业资深专家、行业分析师、自媒体作者,《智联天下:移动通信改变中国》丛书作者。通信行业13年工作经验,曾长期任职于中兴通讯股份有限公司,从事2/3/4G及5G相关技术领域方面的研究,曾担任中兴通讯核心网产品线产品经理、能力提升总监、中兴通讯学院二级讲师、中兴通讯高级主任工程师,拥有丰富的行业经验和积累。