作者|油醋
腾讯的通用大语言模型“混元”终于亮相,不太轰动,没那么性感,却足够务实。
在做大模型这件事上,腾讯身上有很多外界不理解的地方,比如:
为什么直到9月才发大模型。
顺序上为什么是先做MaaS平台,然后再把自己的基础模型拿出来。
这样一个在C端产品上强势的互联网公司,直到混元大模型都出来了,也没有拿出个APP,不管是OpenAI还是百度都有产品了,甚至期许类似的字节跳动也都搞出个豆包了。
外界替腾讯急,腾讯终于给了回应。回答很简单:“OpenAI是一个创业公司”。言下之意,腾讯做大模型的状态,与一家创业公司会有区别。
说这句话的是腾讯集团副总裁蒋杰,他正在领导混元大模型的研发团队,这句话有几层意思。
一是,这是一家做了20年产品的公司。做一个ChatGPT或者文心一言尽快落到用户手机上,也是为了有更多真实的用户语料数据,回补给大模型去迭代,边打仗边学习。
但几乎10年前,腾讯所有产品的总日接入数据量已经200TB,并发分拣业务接口10000个,5年前腾讯系产品占移动互联网用户总使用时长的42.3%——现在微信的月活用户超过13亿,QQ超过6亿,这场仗腾讯已经打过了。
而10年前带着腾讯拥抱大数据技术的人正是蒋杰,这位混元大模型技术侧的负责人同时在腾讯内部全面负责腾讯广告的产品技术业务。混元大模型所依仗的,以及它未来首先看向的业务,都隐约透露出来。
二是,虽然腾讯丰富的C端产品下有一座语料富矿,但混元大模型其实做的很重,它没有先奔着一个聊天Bot去,而更偏向B端。但去往B端的大模型们,往往执著于插旗,也就是进入企业视线的先后顺序。从这个角度看,混元大模型无疑是滞后了,甚至MaaS也像是给他人做了嫁衣。
但汤道生从与客户的交流中听出来,目前企业客户往往并未笃定一家模型,而是更倾向于多家接入,做尝试和观望。“这个行业太新了,还在早期,不存在追赶”。所以对于腾讯来说,这件事的步调仍然“以我为主”。
不抢先手,就要更实用。腾讯想做一个能够尽快进入行业的大模型。而不是早早拿出来,然后悬浮在无数行业和企业上空一直无法下沉。
这意味着混元大模型需要在内部完成一系列最大强度的能力验证。“腾讯不是一家创业公司”的另一面是,它已经在内部攒了足够多能够成为大模型假想敌的B端产品。
比如4亿用户的腾讯会议,用户数量同样在亿级以上的腾讯文档,或者覆盖了6亿用户的腾讯广告。
“我们首先选择在腾讯文档,腾讯会议中做压力测试,如果在这两个场景中能够通过,那在别的地方也没问题。”一位One ID团队的开发人员这样解释腾讯在统一身份认证时的内测顺序,同样的思路也适用于混元大模型。
除了这三个,还有包括腾讯云、腾讯游戏、腾讯金融科技、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品,都已经接入腾讯混元大模型测试做了一段时间内测。
换句话说,混元大模型成型的并不晚,只是拿出来晚。汤道生表示,这沿袭了腾讯一贯对于产品质量的要求。
而大模型的“实用”再展开一层,就是“可靠”和“成熟”。“可靠”可以理解成对幻觉的控制。
幻觉指的是不基于事实而臆造答案的现象,这在大模型中非常普遍,也是阻挡大模型能力从一个手边玩具真正进入实际层面应用的重要原因之一。
从模型预训练、微调以及外挂插件层面都可以一定程度减少幻觉的产生,但相比于外挂层面对于幻觉的抑制,直接动大模型要来的更有效,但门槛也更高。
“尽管这些技术(外挂抑制幻觉)我们也会用,但是比例不是很高,混元大模型是在大模型的预训练阶段来控制这个问题”,蒋杰在采访中透露。基于一种探针技术,混元大模型能够实现在预训练阶段优化目标函数,使得幻觉率比目前市场上的主流开源大模型降低了30%~50%。
“成熟”的一个衡量尺度是回答的文本篇幅。
混元大模型通过位置编码优化和结合指令跟随的优化技术,提升了长文本的处理效果和性能,输出文字回答篇幅超过4000字——做个对比,GPT-4的中文回答篇幅只限于2000字以内。这极大拓宽了混元大模型的使用场景。
整体来看,混元大模型的参数规模达到千亿级,预训练语料超2万亿tokens。支持直接调用 API 接口或者将其作为基底模型在公有云上进行精调。目前混元大模型支持的功能有多轮对话、内容创作、逻辑推理以及知识增强,值得注意的是,多模态能力也已被列出,将在未来上线。
图源:腾讯云官网
蒋杰强调,混元大模型是“从第一个token开始从零训练的”,“腾讯不是一家创业公司”也意味着,腾讯在混元大模型背后有一条从AI基础设施到机器学习框架,再到模型算法的一套全链路自研技术。
在底层算力上,腾讯云在今年4月发布了面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群,采用最新一代腾讯云星星海自研服务器,搭载NVIDIA H800 Tensor Core GPU,提供互联带宽可达到3.2T。
此HCC高性能计算集群的基础则是腾讯的星脉高性能计算网络,腾讯在今年6月首次对外透露了自身数据中心网络的代际变化。
最初腾讯建立标准化数据中心网络,衡量标准是QQ的在线人数。在线人数增长超过1亿,服务器的数量要增加10万台。这时候的数据中心网络流量主要由用户访问数据中心服务器的南北向流量构成,网络架构以接入、汇聚、出口为主。
初期的PC互联网时代迅速过渡到大数据和云计算时代,云服务客户对网络产生了虚拟化和隔离的要求,数据中心网络架构也从此前南北向流量逐渐演变成南北与东西向流量兼顾的云网络架构。标准化数据中心网络逐渐向200万台服务器构成的超大规模数据中心网络扩展。
而当下大规模算力驱动的数据网络需求特征,则进一步推动腾讯形成一个新的软硬件协同,有着超大带宽并且符合AI训练流量特征的高性能计算网络。
腾讯有着大量高并发业务,这使得许多开源框架并不适合腾讯的体量,这倒逼腾讯要走出一条基于自主体系的研发道路。
模型训练自带的黑箱属性也迫使腾讯要在技术环节上自主可控,这是做一个足够有现实意义的大模型的基础。
“如果你不从头做自研的话,意味着对这个技术你没有完全掌握,(以后)别人的一个模型训练好了,里面有一些违法或有害的信息或回答出现,你就没办法做更多更改了,”蒋杰在采访中表示。
基于算力和网络基础,以及提供从数据预处理、模型构建、模型训练、模型评估到模型服务的全流程开发支持的机器学习平台TI-ONE,腾讯云在今年6月首先推出了MaaS平台。到了8月,TI平台已经全面接入Llama 2、Falcon等20多个主流模型,成为国内第一批上架和支持开源模型的大模型厂商,直到此次混元大模型正式上线。
但在这次亮相之后,“混元大模型”这个名字或许又会隐去。就像它长久以来都已经作为腾讯云MaaS平台底座存在一样。可以确定的事,未来腾讯会议、腾讯文档甚至微信和QQ们的变革,将从这里开始。
大模型的热闹是具体的。但热闹过后,它仍然是一种过于发散而抽象的能力。而从互联网时代开始,腾讯一直在做的事就是将抽象的能力具像化,然后放到用户面前。
决胜负的仍然是产品。