作者|薛良Neil,邮箱|neilshen@pingwest.com
随着大模型热潮汹涌进入一个新阶段,有关 AI Agent 的讨论逐渐多了起来。简单来说,AI Agent 可以翻译成智能体或者代理,研究者和科学家们设想,AI Agent 可以代替人处理更复杂的任务,甚至摒弃掉 prompt 和基于大模型多重复杂的指令。
即使是同大模型本身比较起来,有关 AI Agent 的设想也颇具颠覆性,如果智能体真的能很好地理解和代替人来执行指令,那么它的应用场景几乎是没有穷尽的,它可能比所有一切技术都更接近 AGI,也就是通用人工智能。
在大模型技术上领先的 OpenAI同样对AI Agent 十分感兴趣,它们的首席科学家Ilya Sutskever不止一次表达过OpenAI 对 AI Agent 技术的关注,事实上这一点颇为有趣,按照Ilya Sutskever自己的说法, 强如OpenAI,在 AI Agent 技术方面也是同所有研究组织站在同一条起跑线上。
这对所有人来说都意味着巨大的机会和增长空间,尤其是在中国。硅星人在 10 月 31 日未来科技力 100 人系列专题直播对话的主题也由此确定。我们邀请到了澜码科技创始人兼CEO周健、亿铸科技创始人熊大鹏和Hugging Face工程师王铁震三位嘉宾共同探讨和 AI Agent 有关的一切。
其中,澜码科技是国内最早致力于 AI Agent 相关技术和应用研发和落地的公司,亿铸科技则聚焦于存算一体新架构的 AI 算力芯片,Hugging Face 这不必多说,尽管还是个所谓“初创公司”,但它已经成为全球著名的大模型托管平台和技术讨论社区了。
AI Agent 软件范式的改变
澜码科技创始人兼CEO周健:从超级自动化平台的视角谈论了 AI Agent 的巨大潜力。
“AI Agent 和大模型是什么关系?过去的系统负责感知,大模型是个知识系统,AI Agent 更像是个行动系统,它像一个神经中枢,跟真实环境交互,并且能够把任务进行拆解实现。”
“AI Agent 会有规划模块、记忆模块、执行模块,并且因为需要适配上下文,它还要有一个很强的配置模块。”
“AI Agent 的自动化和过去的做法比起来最大的差别是什么呢?过去的 RPA低代码很多时候比较僵硬,不能利用已有数据。而大语言模型提供了极其便宜的自然语言理解能力,也提供了一定的逻辑推理、思考能力。标准流程因此变得可执行了。这一轮AI 大模型革命可以给企业内部自动化带来颠覆性的变化,从过去解决重复劳动问题转向解决业务质量问题,初级的员工能够在专家赋能的 AI Agent 帮助下,去做更高级、高质量的工作,从而提高整体行业的水平。”
大模型的算力代价
亿铸科技创始人熊大鹏分享了大模型浪潮对算力提出的巨大挑战,这种挑战在 AI Agent 兴起的大背景下显得越发严峻。
“实际决定芯片有效性能的不仅仅是计算单元和核心,以及工作频率到底有多高,还包括了在同一个计算单元里面用于数据搬运和读写所花费的时间到底是多少。特别是对于 AI 芯片来说,数据搬运和读写所占的百分比达到了 90%甚至更多,这就意味着即使我们用更好的工艺堆叠更多的核心,如果不解决带宽和时延问题,算力的提升还是很有限的。从整个系统来看也是一样的原理,不管是哪个公司的板卡,组成一个大的集群后,它的真实有效算力能够提高到什么程度,很大程度上也取决于整个网络的带宽和时延,而不仅仅是 AI 加速卡本身的问题。”
“存算一体架构的芯片,它避免了大量的数据搬运,这样使得端到端时延大大减少,在整个矩阵计算中,参数也没有任何搬运的需求,这意味着相比目前的芯片架构,存算一体芯片理论上数据搬运量减少了一万倍以上,带来了巨大的好处。同样工艺和功耗情况下,亿铸科技的存算一体 AI 加速芯片裸算力相比传统的冯·诺依曼架构的芯片提升约 20 倍以上,有效算力提升达10 倍以上,这样大模型构建初期有关的投入和运营成本将会大幅减少。”
作为一条长期赛道的 AI Agent
Hugging Face工程师王铁震:我觉得针对什么是 AI Agent,现在也没有形成一个非常明确的共识。我个人想法就是说拿人类做一个类比,比如人类去思考一个事情,就是脑中想一下,然后出来一个答案。这个过程可能就跟prompt一下,大模型输出一个结果是一样的。但我们都知道,一些深思熟虑的想法不是灵光一闪就有答案的,你需要工具,比如拿笔把它记录下来;你需要有很多人大家一起去聊等等,经过这些过程才有一个非常好的结果。
我觉得AI Agent也是一样,你只是通过prompt,大模型的答案可能不够好,如果你把一堆大模型弄到一起,用工具去做一些事情,从各个角度把问题拆解,可能是比大模型本身去思考更智能的一种做法,我觉得AI Agent就是这种。
AI Agent让大模型变得更聪明。
澜码科技创始人兼CEO周健:AI Agent 是一个很长期的赛道,澜码现在做的叫Task Oriented Agent,有更多自主性、多样性、新颖性的 AI Agent 应用,比如 AI for science、自动驾驶,以及我们过去有所讨论的具身智能等,它们也属于 AI Agent,但不是现在这种框架可以解决的了。
总的来说,现在还是一个非常初级的阶段,我觉得未来还有很长的路要走,但可能性和想象空间是很大的。
亿铸科技创始人熊大鹏:我想 AI Agent 和通用智能大模型是相辅相成的,好的 AI Agent 可以让通用智能大模型更聪明,某种程度上我觉得 AI Agent 是通用智能大模型的延伸,它可以针对某个具体的应用、具体的功能做得非常深,拥有比通用智能更专精的能力。
AI Agent 与UI界面的演变
Hugging Face工程师王铁震:20 年前大家觉得做一个网页就是写几个 html 代码,完全想象不到现在做一个网页可以如此复杂,包含这么多的框架、代码和交互。
AI Agent 也是如此,它和基础模型之间的关系有时候是混合的,只是用户能不能感知到而已。比如当你去调用 ChatGPT 的时候,其实你不只是在调用一个大模型,而是它背后有很多不同的模型,有不同的工具,然后让它们组合在一起给你了一个答案。
OpenAI 正明显在往这个方向走去,它把所有的 plug-ins 功能都打开了,你调用大模型的时候,它随时可以去调去各种各样的能力。因此并不一定说要把大模型和 AI Agent 这两个概念区分开变得非常独立,大模型首先需要强大到能够利用 AI Agent 能力,然后通过它的能力在其他维度上扩充功能。
澜码科技创始人兼CEO周健:我觉得AI Agent 会像是《钢铁侠》里的贾维斯,长远来看它肯定会走到那一步的,也就是说,它的交互形式将会是多信道的。就像人和人之间的交流,用微信是一种方式,用语音是一种方式,用视频或者面对面等有各种方式。
人们为什么需要面对面聊天?因为面对面包含了更多的信道,就比如我在说话的时候,动作、表情会传递许多不一样的信号。AI的发展长远来看也会做到这一点,它将包括非常多的信息通道。
AI Agent是最近大家才会抽象出来指代一些事情的词,之前业界更多会用copilot来形容,包括讨论UI界面的变化,现在到底会变成 language UI 还是 conversation UI ?其实还不确定,但可以肯定的是它绝不仅仅局限在对话上,因为AI Agent是有能力去生成代码、生成表单的,从这个意义上来说,它代表了UI下一步的一种进化。
当然,它发展的过程中会遇到很多的困难。我们最近有一个内部的讨论,其中有一点我想可以拿出来和大家分享,那就是大语言模型训练的时候用到的很多语料是关于 “what” 和“why”的,很少有人会在互联网上写“How”,也就是说大家很少把分析的过程写出来,而往往只是给到结果。相比之下,只有代码这部分比较好地写出了“how”,所以从这个意义上来讲,目前大模型能力上还有很多缺失的部分。
AI Agent 会引发新一轮的算力暴涨吗?
亿铸科技创始人熊大鹏:具有通用智能特性的完整大模型在云端,相当于人的大脑,而中脑和小脑,也就是AI Agent会落在本地,它可能是一个经过裁剪之后的大模型,能够和云端的完整大模型协同和互动,具体执行的时候则依靠自己本地的算力。
也就是说,算力可能在边缘设备,也就是端侧设备上同样出现暴涨。
AI Agent应用在何处?
Hugging Face工程师王铁震:我觉得游戏场景是一个非常典型的应用,把多个智能体放进去,每个智能体有自己的想法,可以进行交互。这比用一个大模型生成整个完整的游戏体验可能效果会好很多。当然我们需要注意多样性的问题,如果每个模型都大差不差的话,可能最终的体验并不会特别好。
总的来说,AI Agent 实际上是大模型的一个延伸,现在用大模型做的不好的事情,将来用 AI Agent 可能会更好。比如写代码,现在 ChatGPT 能写出大概 10 行、20 行的无错代码,但最近我们看到比如 ChatDev 这样的 AI Agent,它用一个完整的模拟人类开发流程的方式分工合作去生成代码,同样是用 ChatGPT,协作之后写出来的代码它更符合人类的要求,bug 更少。这就是 AI Agent 的应用场景,从这个角度讲,现在所有运用大模型的地方,只要满足算力的需求我们其实都可以用 AI Agent 来代替,它将有非常广阔的前景。
澜码科技创始人兼CEO周健:我们的精力主要集中在To B端,现在看下来。即使是GPT4在通用性上还有很多问题,但在一个限定的、具体的领域,比如出差场景,无非就是调用日历、邮箱、微信、机票和酒店等,让AI Agent做你的差旅安排其实是容易的。
目前在限定的场景中,ToB端的专业场景它是会比人强的。更远一些的东西我想可能需要一些时间。
大模型向左,AI Agent向右
Hugging Face工程师王铁震:现在很多开源模型做 AI Agent 效果是比较差的,因为训练大模型的过程,更多的是为了“生成”这个目的,这与AI Agent的目的——分析理解问题、拆解然后处理的逻辑是整个不一样的。
生成的内容出现一些错误是很正常的现象,但如果你把一个任务、一个问题拆解错了,那它最后给到的结果可能完全就跑偏了,这里面包含的控制难度实际上是非常不一样的。
不同公司对这些方向有不同的选择,但有一种意见是,使用工具的能力或许比生成一个故事更能代表智能的本质,实际上OpenAI就是这种思路,因此才把所有的工具都集合在了ChatGPT中。
如果一个模型,一方面它参数足够多,具备强大的推理和分析能力;另一方面它又能有很好的算力支持,成本足够低。我觉得这个世界的未来将会变得很不一样。
标题及部分观点引用自:《Chat 向左,Agent 向右》https://zhuanlan.zhihu.com/p/662704254