自从OpenAI在去年6月份发布的GPT-3之后,大模型成为几乎所有全球头部AI公司的逐鹿目标。在昨天举行的2021人工智能计算大会(AICC 2021)上,关于产业层面的大新闻是浪潮也宣布加入AI大模型的栈道,浪潮人工智能研究院宣布9月份开发出全球最大规模的中文AI巨量模型“源1.0”,并将其开源,此举给大模型的逐鹿再添一把火。
模型的参数规模越大,优势越明显?
最近大模型为什么走热,先要从OpenAI讲起。OpenAI是由来自硅谷、西雅图等地的诸多科技大亨联合建立的人工智能非营利组织,这些大佬们给OpenAI的首期投资是10亿美金,而这个组织的发起人之一,是“钢铁侠”马斯克。2015年,马斯克与其他硅谷、西雅图科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用,OpenAI的目标,是要制造“通用”机器人,或者称之为“通用人工智能”。2019年7月,微软也给OpenAI投资了10亿美元。次年6月,OpenAI研发出GPT-3语言模型,而且在三个月后又将这个GPT-3模型独家授权给微软。
最近微软CEO萨提亚对微软首席技术官凯文谈及未来对微软研究院的期待,萨提亚给出了三个期望,其中之一便是AI“大模型”。
那么,这个GPT-3又有什么魔力呢?作为最先进的语言模型,GPT-3包括1750亿个参数(而其前身GPT-2的参数为15亿),从而击败了之前保持记录的图灵NLG模型(170亿)。参数多有什么意义?浪潮人工智能研究院首席研究员吴韶华回应记者说:“其关键原因在于OpenAI的GPT-3凸显了一种小样本学习以及泛化能力,而且两个层面的能力都非常优秀。”
吴韶华进一步解释,泛化能力是指模型训练一次,形成的大模型就可用于各种各样的任务,哪怕这些任务之间没有任何关联。而要理解小样本学习,需要先了解传统的模型训练范式。传统范式是首先要预训练得到一个基础模型,基础模型做完之后,需要针对具体任务再做数据级微调,这意味着如果一个企业有各种各样的任务,就得有各种繁多的模型。“大模型最重要的优势,是进入大规模可复制的产业落地阶段,只需小样本的学习,也能达到比以前更好的效果,而且模型参数规模越大,这种优势越明显,可大大降低各类用户的开发使用成本。”吴韶华说。
模型的参数规模越大,优势越明显。正因为如此,头部AI企业正在不断地追逐大模型之“大”,不久前,微软与英伟达宣布双方合作的语言模型MT-NLG的参数为5300亿。
中国工程院院士王恩东表示:“人工智能如何发展出像人类具备逻辑、意识和推理的认知能力,是人工智能研究一直探索的方向。目前来看,通过大规模数据训练超大参数量的巨量模型,被认为是非常有希望实现通用人工智能的一个重要方向。”随着巨量模型的兴起,巨量化已成为未来人工智能发展非常重要的一个趋势。而巨量化的一个核心特征就是模型参数多、训练数据量大。
人工智能从专用到通用,模型做精更好?
目前,美国在大模型领域已经取得较快进展,代表性的进展有谷歌的Bert,OpenAI的GPT-3等。正当模型参数朝着越来越无穷大的方向迈进之时,OpenAI的CEO宣布其大模型的下一个GPT-4,其参数不会比GPT-3的更多,而是更少,因为GPT-4将使用与之前GPT模型不同的方法,包括数据算法和微调,这其中的重点是在较小的模型中获得最大的收益。
是不是模型越大越好?吴韶华认为,模型的核心并不是越大越好,其本质是人工智能正在向通用人工智能的方向演进,其核心是从专用人工智能向通用人工智能发展。在寻求更接近于通用人工智能的道路上,不同的公司、不同的科学家们,正在寻找更接近的路径。
目前国内的企业与机构同样在大模型路上蠢蠢欲动。今年6月,阿里巴巴宣布其多模态通用大模型M6问世,模型参数是万亿级;几个月后的云栖大会上,阿里巴巴宣布其大模型M6的参数已经从原来的万亿级上升到10万亿级,规模超越此前谷歌发布的1.6万亿Switch Transformer模型。与此同时,北京智源人工智能研究院宣布推出大模型“悟道2.0”,智源研究院表示,悟道2.0具备大规模、高精度、高效率的特点。在规模上,“悟道2.0”的参数达到1.75万亿,是OpenAI GPT-3的10倍。
9月28日,浪潮人工智能研究院宣布推出的大模型“源1.0”,10月27日浪潮宣布“源1.0”开源。按照介绍,“源1.0”是全球最大中文预训练语言模型,历时四个月研发,其参数量为2457亿,训练数据集规模达到5000GB。相比GPT3模型的1750亿参数量和570GB训练数据集,“源1.0”的参数规模增加了40%,训练数据集规模增加近10倍。
当浪潮的大模型出来,必然引来相关争议,阿里、智源与浪潮之间的模型究竟谁更大?业内资深人士表示,阿里与智源的大模型属于混合模型,而浪潮的模型为单体模型也称巨量模型,GPT-3就是单体巨量模型。混合模型和单体巨量模型有本质区别。单体巨量模型最核心、最有潜力的能力在于零样本和小样本学习能力,巨量模型是让AI发展有了机会越阶升级,是一次升维,可以通过训练它找到更高层次的东西,触碰到更高阶的智能世界。
一直以来,浪潮的优势是AI算力,现在浪潮也推大模型,加入AI大模型的赛道,这是要从底层算力到上层算法、模型通吃AI市场的节奏吗?未来,浪潮在AI领域的边界在哪里?
回应《中国电子报》记者的这一问题,浪潮信息副总裁、浪潮信息AI&HPC产品线总经理刘军说,“浪潮既不会画地为牢地局限自己,也不会天马行空地不顾边界。”
刘军谈及了浪潮在两个层面的思考与诉求,一是从产业发展的层面看,需要产品不断去满足客户、满足市场、满足应用需要的发展。这个层面要做非常严谨的商业计划和商业推敲、严格的产品规划和营销策略规划,还包括如何去满足客户的需求的实现路径。
二是从科研创新、科学探索方向上,可以更加大胆一点,这个大胆核心来源于科学家们、研究员们的好奇心、好胜心,希望做充满兴趣的东西,在科学和探索的领域里面,鼓励大家去有更多的想象空间。
“之所以选择做源,不仅仅是因为大模型是AI产业的重要制高点,更因为它对产业的发展有帮助,是一个交叉点;而且从浪潮的策略、优势和能力储备来说,很适合做。因为要做好大模型,其实是算力、算法、数据三架马车协同的创新。”刘军说。
在大模型的赛道上,算力公司、算法公司、数据公司,研究机构正在展开新一轮竞赛。如果说大模型竞争的前半程是模型本身,那么后半程的竞争则是商业落地,而落地的关键是生态和用户,这正是浪潮急于将其开源的原因,开源以赢得更多的生态支持。目前,前半程才刚刚开始,后半程谁会跑得更快呢,是阿里还是浪潮或是其他,等待时间给出答案。
作者丨李佳师
编辑丨连晓东
美编丨马利亚