作者:周闻钧物联网智库 整理
迈入万物智联AIoT2.0时代,数据的产生和处理不再局限于中心化的数据中心,而是越来越多地发生在数据产生的端侧——即我们的个人设备上。
在全球范围内,科技公司和研究机构都在积极探索端侧模型的应用潜力。从智能手机到可穿戴设备,从智能家居到工业自动化,端侧模型的应用场景正在不断扩展。
什么是端侧小模型?在端侧运行大语言模型有可能吗?端侧AI的进展如何?
近日,智用人工智能应用研究院 CTO 周闻钧应邀出席“2025中国AIoT产业年会暨万物智联2.0前瞻洞察大典”,并在会上发表了题为《端侧小模型们的春天来到了吗?》的主题演讲,深入探讨了端侧小模型的最新进展、应用实例以及未来的发展趋势。
以下为演讲全文:
端侧小模型的应用实例
我们来回顾一下近期与端侧小模型相关的一些进展,可能大家已经在使用新一代的苹果手机,尽管在国内可能因为某些限制而无法完全体验其功能,但至少Apple Intelligence让大家感受到了比Siri更出色的体验。这实际上是一个典型的端侧小模型与在线大模型结合的例子。
苹果的端侧小模型与在线大模型的结合
苹果公司拥有自己的人工智能团队,一直在研发端侧小模型,因此其设备上搭载自家的端侧小模型并不令人意外。同时,苹果还宣布了与OpenAI的合作,这种架构明显是为了快速思考和响应,使用的是苹果自己的端侧设备,确保iOS设备上的流畅体验,而更复杂的推理任务则交给与OpenAI合作的在线大模型来完成,提供全面完整的推理结果。这样的设计让用户感受到在线大模型的推理和思考能力接近人类的水平,这是一个端加云的模型组合的典型案例。
国内硬件设备的革新
在国内,我们也见证了许多熟悉的硬件设备的革新。
例如,最近市场上出现了许多新型眼镜,包括百度推出的小度AI眼镜,据说其中搭载了端侧模型。在教育类硬件中,也嵌入了一些小型模型,甚至是特别小的模型,如翻译笔、词典笔等。以前我们认为这些设备太小、算力太弱,无法运行小模型,但现在有些厂商已经将特别小的语言模型集成进去,取代了原来的OCR、翻译模型等,将多个模型合并为一个。由于语言模型天生具有对话能力,这样的设备即使在无法联网的情况下,也不会显得太“智障”。这是我们观察到的一些进展。
具身智能的前沿探索——Figure 1
再把时间线往前推一下,有一家名为Figure的具身智能公司值得一提。OpenAI投资了这家公司,并裁撤了自己的具身智能部门,专注于大模型的研发。他们投资的Figure公司专注于具身智能体的研发,发布的Figure是第一个真正将OpenAI的云端大模型作为其背后的思考大脑的例子,这也是一个典型的端侧模型。
端侧模型负责将思考结果转换成对具身智能体各个自由度的控制,包括力度控制,而理解人类意图的整个思考逻辑则交给OpenAI这样的大模型。
这个场景令人印象深刻,它能够理解人类的对话意图,比如询问桌上哪些东西是可以吃的。智能体扫视一圈后,识别出餐具、水杯和苹果,然后决定苹果是人可以吃的食物,接着用合适的力度和方式将苹果递到人的手中。整个思考场景和选择是由在线模型完成的,而端侧模型则负责将这些思考结果转化为动作指令。这也是我们在具身智能体中看到的端侧模型与在线模型结合的一个例子。
斯坦福 Mobile ALOHA 开源机器人
几个月前,斯坦福大学开源了一个名为Mobile ALOHA的项目,这个项目包含了软件和硬件算力所需的所有材料清单。有人估算,在美国市场上,大约花费3万2美元就可以买到所需的材料。如果在中国购买,成本可能会更低。尽管这个模型看起来简陋,但只要你按照说明组装并运行,通过真人示范训练,例如遥控机械手操作50次炒鸡蛋,Mobile ALOHA就能学会这项技能,并且大约有90%的成功率。当然,有时也会出现翻车的情况。
这个项目为我们打开了新的想象空间,我们可以将Mobile ALOHA视为一种低成本的具身智能参考架构。基于这个架构,人们可以通过众包学习来训练它完成特定的任务,比如我可能会训练它专门用于烹饪,比如烘焙或制作甜点;另一组人可能会训练它在养老院帮助老人翻身或清洗衣物等。通过在不同场景下使用Mobile ALOHA并进行人类示范训练,这些机器人可以习得不同的能力,而且由于它们基于相同的架构,这些在不同场景下获得的具身智能体能力是可以交换和导入的。
进一步来说,现在大家已经广泛接受了手机应用商店的概念,通过应用商店来补足手机的能力,无论是娱乐、音乐还是提高工作效率,都可以打造专属的个性化体验。同样,这样的具身智能体硬件也可以通过一个能力商店,让人们自由选择和加载所需的能力,以满足不同场景的需求。
英伟达也盯上了端侧?
谈到机器的能力,英伟达可以说是近期最意气风发的企业之一了。尽管如今英伟达在全球算力中心和高端显卡领域供不应求,所有人都希望与其建立良好关系,以获取更多显卡资源,英伟达无疑是一个强势的甲方。然而,他们的算力中心业务在短期内似乎并没有瓶颈,市场对各种显卡的需求依然旺盛,订单甚至排到三五年之后。但我相信,他们也在思考未来的挑战所在,这一点非常难得。在英伟达的技术大会上,我们不仅看到了新显卡架构的展示,还注意到他们邀请了全球众多知名企业参与。这表明,英伟达正在考虑未来算力的下一个主战场,是否会转向端侧或具身智能体。
端侧小模型的定义与未来
什么是小模型?
那么,究竟什么是小模型呢?大模型的概念大家应该都不陌生,比如OpenAI的模型等。那么小模型又是什么呢?
首先,小模型需要具备在特定场景下理解用户输入并推理出对应输出的能力。关于参数量,并没有一个统一的标准。有人认为7B参数以下算是小模型,也有人认为10B参数以下才算。
小模型与大模型的概念是相对的。例如,当主流模型如Llama推出70B、80B参数的高配版本时,7B、3B可能被认为是合适的小模型尺寸。但随着开源模型参数量达到430B甚至可能超过1000B,小模型的标准也在不断提高。当然,这也与我们能在端侧运行的算力和支持的小模型类型密切相关。目前,大家普遍接受的标准是10B参数以下可以称为小模型。
小模型主要应用于特定领域的问答系统,将能力限定在某些特定的狭窄领域或行业。例如,医疗、金融等领域的模型,参数量不大,但结合了行业专属知识,并对模型做了二次微调。此外,代码辅助生成的基础模型也相对较小,通常在3B到7B参数之间。在移动设备领域,随着AI概念的兴起,设备端也开始研究如何嵌入端侧模型以提高AI能力,比如AI PC、AI手机等。
目前市场上一些主流的小模型,如Llama3.2,其小模型版本大约是3B参数;千问模型则在1B参数以下,有0.5B、1.5B、3B、7B版本。谷歌的Gemma 2有2B和9B版本。微软的Phi-3.5模型参数量较为特殊,有3.8B、4.2B、6.6B等版本,均低于7B的标准。
小模型的能力也在不断提升,例如,它们已经能够实时理解游戏画面并产生对策,控制兵种进行战略部署,如即时战略游戏。这些是小模型目前能够实现的一些功能。
对端侧小模型未来的展望
关于端侧小模型的未来展望,我的看法经历了转变。
六个月前,我曾怀疑在端侧运行大语言模型的实用性,因为它们运行缓慢且容易发热。然而,现实教育了我,现在我完全站在了对立面,我们确实需要在设备端运行一些小语言模型,原因是:
首先,尽管大家都在大力投资智算中心,但在某些地区,特别是在数据密集和需求旺盛的东部地区,算力仍然是稀缺资源。即便在云平台上投入巨资,如微软Azure,想要获取足够的A100算力卡,有时还需要与商务人员进行申请和对接。算力中心的GPU资源极度稀缺,只能共享,这导致在线大模型推理时会产生较大的网络延迟,而在许多场景中,延迟是不可忽视的。
其次,许多客户对将企业私域知识和业务场景问题发送到外部大模型进行理解和推理,再将结果返回的安全性表示质疑。他们担心企业核心经营机密的泄露。因此,许多企业,尤其是行业客户,由于合规、隐私和安全方面的考虑,非常需要在物理边界内控制属于自己的模型,所以端侧小模型的需求是切实存在的。
目前,尽管市面上有许多合适的小模型,但我们特别看好两个小模型的未来发展,无论是从尺寸、能力还是应用场景来看,它们都可能表现得更好。一个是微软的PHi-3.5系列,它正在不断迭代。另一个值得一提的是,之前提到的模型基本上都是基于Transformer架构的,也就是GPT系列,但Transformer架构有一个致命缺陷,即它的时间复杂度是二次方的,对于算力的需求随着问题规模的增长而急剧增加。而非Transformer架构的大模型,如国内厂商推出的RWKV,已经发展到第6代,它的时间复杂度是线性的,这对于大模型的增长和扩展来说更为友好。
端侧有很多这样的例子,特别是一些嵌入式设备已经能够运行1B到7B参数的模型。未来,我们会发现越来越多的端侧设备,如眼镜、手机、PC等,将内置越来越多的小模型,它们将无声地影响着我们的生活。
我的分享到此结束,谢谢大家。