随着“千模大战”接近尾声,由大模型掀起的算力竞赛也逐渐进入“下半场”,由“建算力”过渡到“用算力”上。不同于大模型的参数量大、成本高、部署复杂,以“小而美”著称的小模型为行业提供了新选择。
近日,大模型头部厂商微软和英伟达纷纷押注小模型,相继发布了最新的小型语言模型——Phi-3.5-mini-instruct和Mistral-NeMo-Minitron8B。这两款模型的主要卖点是实现了计算资源使用和功能表现之间良好的平衡。更有消息称,在某些方面,它们的性能甚至可以媲美大模型。
其实,不仅国外小模型发展提速,国内众多厂商也有小模型问世。比如阿里巴巴发布的Qwen1.5系列,其最小参数可达到0.5B;面壁智能发布的MiniCPM系列模型号称最强端侧模型。
顾名思义,小模型即在参数量、计算资源需求、模型规模等方面相对较小的人工智能模型。从已有产品不难发现,国内外厂商纷纷入局小模型,既是看到了小模型相较于大模型的优势所在,也是积极助推人工智能模型落地的实践。
在成本与资源利用上,小模型参数量少,对计算资源的需求较低,训练和推理成本也更低,这对于资源有限或预算紧张的企业来说极具吸引力。而且小模型体积小,部署相对简单,对硬件和存储的要求不是很高,也无需复杂的分布式计算架构,能够有效降低部署和维护的难度与成本。
在性能与效率平衡上,小模型的价值更多体现在满足特定场景需求上,能够更快地给出结果,实现实时响应。此外,其定制性也更强,企业可以基于自身业务数据对小模型进行精调优化,使其更贴合特定任务和场景。
在应用场景拓展上,一方面,小模型更适应边缘计算需求,可以本地部署到个人电脑、手机等终端设备上并进行数据处理和分析,降低数据传输到云端的成本和隐私风险。另一方面,小模型具备灵活性和低成本等特点,更利于新业务探索,降低试错成本,帮助企业在新领域快速迭代和创新。
小模型的优势有目共睹,行业逐渐重视其应用与开发,也在很大程度上给了其“反卷”大模型的勇气。但不可否认的是,小模型参数量较小以及训练数据有限,在带来轻便、易部署等一系列优点的同时,也暴露了可能存在理解深度与广度不足、复杂任务处理能力有限、容易产生“偏见”等问题。
既然大模型与小模型各有利弊,行业应用也应各有所长,笔者认为不能将大模型与小模型视为简单的竞争关系,“适用为王”的理念更符合两者的价值所在。“反卷”大模型,体现了小模型多样化的行业需求,小模型自身的局限性也注定了其只能作为大模型的补充,以更好地推动各行业智能化进程。
为此,笔者认为未来大模型与小模型更趋向于协同共生。
一是实现协同合作。大模型作为基础支撑,将继续在通用智能、复杂任务处理、大规模数据理解等方面发挥重要作用,小模型则在大模型的基础上,针对不同的行业、领域、场景和用户需求进行个性化与精细化处理,支撑更精准、高效的解决方案。
二是促进技术融合。大模型和小模型在训练和优化过程中所采用的方法可以相互借鉴和融合。将大模型训练中的大规模数据处理技术、算法优化技术应用到小模型的训练中,以提高小模型的性能;同时,小模型的高效训练和优化策略也可为大模型训练提供参考,以降低大模型训练成本和资源消耗。
三是共建生态体系。正如大模型最终还是要满足用户需求、走入行业应用,可以预见的是,未来包括大模型、小模型在内的不同规模和类型的模型将有赖于灵活组合和调度,根据开发者和用户的具体需求,构建最适合的应用解决方案。
*本文刊载于《通信世界》总第951期 2024年9月10日 第17期
作者:包建羽
责编/版式:王禹蓉
审校:王 涛 梅雅鑫
监制:刘启诚