AI大模型真香，浪潮开源“源1.0”是不讲武德还是造福产业？

自从OpenAI在去年6月份发布的GPT-3之后，大模型成为几乎所有全球头部AI公司的逐鹿目标。在昨天举行的2021人工智能计算大会(AICC 2021)上，关于产业层面的大新闻是浪潮也宣布加入AI大模型的栈道，浪潮人工智能研究院宣布9月份开发出全球最大规模的中文AI巨量模型“源1.0”，并将其开源，此举给大模型的逐鹿再添一把火。

模型的参数规模越大，优势越明显？

最近大模型为什么走热，先要从OpenAI讲起。OpenAI是由来自硅谷、西雅图等地的诸多科技大亨联合建立的人工智能非营利组织，这些大佬们给OpenAI的首期投资是10亿美金，而这个组织的发起人之一，是“钢铁侠”马斯克。2015年，马斯克与其他硅谷、西雅图科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用，OpenAI的目标，是要制造“通用”机器人，或者称之为“通用人工智能”。2019年7月，微软也给OpenAI投资了10亿美元。次年6月，OpenAI研发出GPT-3语言模型，而且在三个月后又将这个GPT-3模型独家授权给微软。

最近微软CEO萨提亚对微软首席技术官凯文谈及未来对微软研究院的期待，萨提亚给出了三个期望，其中之一便是AI“大模型”。

那么，这个GPT-3又有什么魔力呢？作为最先进的语言模型，GPT-3包括1750亿个参数（而其前身GPT-2的参数为15亿），从而击败了之前保持记录的图灵NLG模型（170亿）。参数多有什么意义？浪潮人工智能研究院首席研究员吴韶华回应记者说：“其关键原因在于OpenAI的GPT-3凸显了一种小样本学习以及泛化能力，而且两个层面的能力都非常优秀。”

吴韶华进一步解释，泛化能力是指模型训练一次，形成的大模型就可用于各种各样的任务，哪怕这些任务之间没有任何关联。而要理解小样本学习，需要先了解传统的模型训练范式。传统范式是首先要预训练得到一个基础模型，基础模型做完之后，需要针对具体任务再做数据级微调，这意味着如果一个企业有各种各样的任务，就得有各种繁多的模型。“大模型最重要的优势，是进入大规模可复制的产业落地阶段，只需小样本的学习，也能达到比以前更好的效果，而且模型参数规模越大，这种优势越明显，可大大降低各类用户的开发使用成本。”吴韶华说。

模型的参数规模越大，优势越明显。正因为如此，头部AI企业正在不断地追逐大模型之“大”，不久前，微软与英伟达宣布双方合作的语言模型MT-NLG的参数为5300亿。

中国工程院院士王恩东表示：“人工智能如何发展出像人类具备逻辑、意识和推理的认知能力，是人工智能研究一直探索的方向。目前来看，通过大规模数据训练超大参数量的巨量模型，被认为是非常有希望实现通用人工智能的一个重要方向。”随着巨量模型的兴起，巨量化已成为未来人工智能发展非常重要的一个趋势。而巨量化的一个核心特征就是模型参数多、训练数据量大。

人工智能从专用到通用，模型做精更好？

目前，美国在大模型领域已经取得较快进展，代表性的进展有谷歌的Bert，OpenAI的GPT-3等。正当模型参数朝着越来越无穷大的方向迈进之时，OpenAI的CEO宣布其大模型的下一个GPT-4，其参数不会比GPT-3的更多，而是更少，因为GPT-4将使用与之前GPT模型不同的方法，包括数据算法和微调，这其中的重点是在较小的模型中获得最大的收益。

是不是模型越大越好？吴韶华认为，模型的核心并不是越大越好，其本质是人工智能正在向通用人工智能的方向演进，其核心是从专用人工智能向通用人工智能发展。在寻求更接近于通用人工智能的道路上，不同的公司、不同的科学家们，正在寻找更接近的路径。

目前国内的企业与机构同样在大模型路上蠢蠢欲动。今年6月，阿里巴巴宣布其多模态通用大模型M6问世，模型参数是万亿级；几个月后的云栖大会上，阿里巴巴宣布其大模型M6的参数已经从原来的万亿级上升到10万亿级，规模超越此前谷歌发布的1.6万亿Switch Transformer模型。与此同时，北京智源人工智能研究院宣布推出大模型“悟道2.0”，智源研究院表示，悟道2.0具备大规模、高精度、高效率的特点。在规模上，“悟道2.0”的参数达到1.75万亿，是OpenAI GPT-3的10倍。

9月28日，浪潮人工智能研究院宣布推出的大模型“源1.0”，10月27日浪潮宣布“源1.0”开源。按照介绍，“源1.0”是全球最大中文预训练语言模型，历时四个月研发，其参数量为2457亿，训练数据集规模达到5000GB。相比GPT3模型的1750亿参数量和570GB训练数据集，“源1.0”的参数规模增加了40%，训练数据集规模增加近10倍。

当浪潮的大模型出来，必然引来相关争议，阿里、智源与浪潮之间的模型究竟谁更大？业内资深人士表示，阿里与智源的大模型属于混合模型，而浪潮的模型为单体模型也称巨量模型，GPT-3就是单体巨量模型。混合模型和单体巨量模型有本质区别。单体巨量模型最核心、最有潜力的能力在于零样本和小样本学习能力，巨量模型是让AI发展有了机会越阶升级，是一次升维，可以通过训练它找到更高层次的东西，触碰到更高阶的智能世界。

一直以来，浪潮的优势是AI算力，现在浪潮也推大模型，加入AI大模型的赛道，这是要从底层算力到上层算法、模型通吃AI市场的节奏吗？未来，浪潮在AI领域的边界在哪里？

回应《中国电子报》记者的这一问题，浪潮信息副总裁、浪潮信息AI&HPC产品线总经理刘军说，“浪潮既不会画地为牢地局限自己，也不会天马行空地不顾边界。”

刘军谈及了浪潮在两个层面的思考与诉求，一是从产业发展的层面看，需要产品不断去满足客户、满足市场、满足应用需要的发展。这个层面要做非常严谨的商业计划和商业推敲、严格的产品规划和营销策略规划，还包括如何去满足客户的需求的实现路径。

二是从科研创新、科学探索方向上，可以更加大胆一点，这个大胆核心来源于科学家们、研究员们的好奇心、好胜心，希望做充满兴趣的东西，在科学和探索的领域里面，鼓励大家去有更多的想象空间。

“之所以选择做源，不仅仅是因为大模型是AI产业的重要制高点，更因为它对产业的发展有帮助，是一个交叉点；而且从浪潮的策略、优势和能力储备来说，很适合做。因为要做好大模型，其实是算力、算法、数据三架马车协同的创新。”刘军说。

在大模型的赛道上，算力公司、算法公司、数据公司，研究机构正在展开新一轮竞赛。如果说大模型竞争的前半程是模型本身，那么后半程的竞争则是商业落地，而落地的关键是生态和用户，这正是浪潮急于将其开源的原因，开源以赢得更多的生态支持。目前，前半程才刚刚开始，后半程谁会跑得更快呢，是阿里还是浪潮或是其他，等待时间给出答案。

作者丨李佳师

编辑丨连晓东

美编丨马利亚