作者 | 方文三
2022年的WAIC,和大模型相关的论坛寥寥无几,而今年,不聊大模型的论坛屈指可数,参展的大模型高达30余个。
2023世界人工智能大会,大模型当之无愧成为[顶流]。
大模型的[国家队]集结
WACI 2023大会上,由国家标准委指导的国家人工智能标准化总体宣布:
我国首个大模型标准化专题组组长由上海人工智能实验室与百度、华为、阿里等企业联合担任。
新组建的专题小组将承担大模型的标准化制订工作,目的是推动大模型和标准化的实践结合,促进人工智能产业的健康发展。
一方面,美国政府又升级制裁,将限制中国企业使用美国厂商的云计算服务,堵住中国人工智能公司可能通过使用云服务绕过当前芯片出口管制规则的漏洞。
另一方面,这场世界人工智能大会,也给全球展现出了中国AI产业、大模型技术发展的蓬勃动力。
急待弥合新技术和场景的鸿沟
或许对自研大模型的厂商而言,商业化的事还可以拖一拖,底层技术创新是第一要务。
但对To B AI应用厂商来说,一边是新技术对现有技术路线带来的潜在颠覆效应,另一边是新需求诞生创造出的市场增长想象空间。
如何弥合新技术和需求场景之间的鸿沟,似乎是更加急迫的事情。
大模型之战逐渐步入后半场,更多人开始关注大模型与实体产业的结合,企业也接连展示其产品的应用场景。
也因此,国内头部科技企业的发力点从通用人工智能大模型,转向行业大模型。
比如腾讯在6月中旬发布了一站式行业大模型精选商店腾讯云Maas;
而华为也在WAIC举办期间推出了赋能千行百业的盘古大模型3.0;
而京东也重磅推出了自研产业大模型言犀。
很显然,通用大模型与产业大模型,已引起了国内头部科技公司AI战略的分野。
虽然两者并不是对立关系,但不同的路线与方向会令其驶向不同的远方。
商汤:热门行业终端落地应用
今年4月,商汤发布了[日日新]大模型体系,包括千亿级参数的语言大模型[商量]、文生图创作平台[秒画]、AI数字人视频生成平台[如影]、3D内容生成平台[琼宇]和[格物],这些都在展台对观众开放体验。
同时,宣布了[商汤日日新SenseNova]大模型体系的多方位全面升级,以及在该体系下的一系列大模型产品更新和落地成果。
此外,商汤也着重介绍并展示了其大模型技术自正式发布以来与产业各方的应用实践。
包括商汤绝影最新打造的智能座舱产品和车路云协同交通体系等;
以及在金融、医疗、电商、移动终端、产业园区等行业生产实践中的落地应用。
华为:全面布局行业大模型
目前,华为云盘古大模型3.0已在煤矿、铁路、气象、金融、代码开发、数字内容生成等领域发挥作用,提升生产效率、降低研发成本。
盘古大模型3.0是一个面向行业的大模型系列,有基础大模型、行业大模型、专用大模型三层架构。
包括[5+N+X]三层架构,L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型。
华为可能不想写诗,但大模型ToB(企业级服务)的钱,却很想赚到。
百度:多层全栈布局完成
自今年3月份发布文心一言大模型后,百度已在芯片(昆仑芯)、框架(飞桨社区)、模型(文心系列)、应用(百度云合作伙伴)四层完成全栈布局。
讯飞:以不同AI+应用场景切入
讯飞展示了[星火]大模型在办公、教育、医疗、工业、金融、汽车和数字员工的应用场景。
不仅展示了大模型在PC与手机等不同终端中的应用实例。
还以不同行业场景为切入点,让公众直观了解大模型如何赋能学习机助力教育提质增效,帮助医疗行业搭建个性化诊后康复管理平台等行业类创新应用。
京东:根据自身业务打造行业大模型
京东的优势在于有丰富的零售、物流、金融、健康、政务等垂直场景的数据和行业经验积累。
因此,言犀大模型的定位就是面向产业,训练时融合70%的通用数据与30%数智供应链原生数据,针对知识密集型、任务型产业场景。
对于有模型训练需求的客户,京东将提供言犀大模型开放计算平台、向量数据库基础设施能力,以及2个行业数据平台。
京东还将零售、金融、健康、物流等广泛专业领域的产业数据也融合到基座模型进行训练。
除了大语言模型,京东也在语音、视觉等多模态模型上进行了研发。
阿里:开源社区降本增效
会上,阿里云发布了AI绘画创作大模型通义万相,并开启定向邀测。
不过,更多被提到的是MaaS(模型即服务)理念。
在开发者生态层,阿里发起的大模型开源社区[魔搭],目前集聚了180多万AI开发者和900多个优质AI模型。
用户通过输入指令,可以一键调用其他的AI模型,用多个模型协同完成复杂任务,这也是降低大模型使用门槛的方式。
用阿里云CTO周靖人的话来说:[把促进中国大模型生态的繁荣作为首要目标。]
腾讯:避开拥挤切入行业大模型
腾讯选择从MaaS切入产业大模型领域。
通过技术中间层向外部企业提供预训练、精调和应用开发等解决方案。
腾讯作为一家云服务提供商,拥有庞大的技术资源和丰富的行业经验,可以为企业提供强大的计算和存储能力,支持大规模的产业大模型训练和优化。
在腾讯看来,各家通用大模型水平最多也就在 GPT-3.5 水平附近,说自己超越ChatGPT往往会言过其实,[多腾讯一个不多,少腾讯一个不少]。
那样还不如主打行业大模型概念,争取在行业大模型上成为第一。
而且,对行业大模型来说,其不需要像通用大模型一样耗费巨资训练通用数据,而更侧重行业本身的数据。
各垂直领域的行业大模型早已被多家企业先后推出。腾讯不做通用的、聊天式的大模型,也是扬长避短。
凡是投入,都会有限度
如果是做模型是烹饪,数据好比是食材,大模型对高质量的[食材]需求更高。
但在公开互联网中,中文的高质量数据本就偏少,大模型厂商其实很难建立起数据壁垒。
在国内厂商尚在追赶GPT-3.5的情况下,没有谁能显著拉开差距。
本质上,AI大模型训练仍然昂贵,即便是大厂,也不可能不求回报地一直投入。
这意味着,国内厂商刚开始做大模型,就面临着更残酷的生存考验。
抢着在行业落地,也是希望能尽快商业化,再投入到AI模型的开发和训练中。
不过造轮子不等于没意义,而是在发展初期必需要做的积累和储备。
如果把大模型产业类比学数学,现阶段各家厂商都在做的洗数据、堆参数、调代码,就好比每天都要背九九乘法表的小学生。
等到有了足够的积累才有可能去学线性代数、微积分这些更高级的知识,跳出造轮子的阶段去做创新。
结尾:
当一种新技术热潮显现,往往有两种演进路径:
一是新技术兑现了价值,成为基础设施的一部分,不再被关注,比如互联网、推荐算法。
另一个是新技术短期内无法兑现价值,然后被新的热潮抢走资源与风头。
各大厂商的战略配方是,去大模型糟粕,取其精华;或者[借力打力]。
部分资料参考:
数字时氪:《大模型无法一步到位?还得是「熟悉的配方」》,TE智库:《现阶段厂商比客户更需要大模型》,DoNews:《[旧趋势]退场,大模型称王》,智能涌现:《30个大模型,抢着落地》,商业秀:《2023WAIC,重新审视AI大模型时代》,国际金融报:《AI大模型,开启[战国]时代!》,零态LT:《30家企业争鸣WAIC:大模型进入高维战》,亿欧智库:《大模型进入战国时代,从WAIC看谁是七雄》