大模型+机器人，能否成为未来爆款？

阳萌或许是我接触过的最懂技术的CEO：他是北大本科，也读了机器学习的研究生，但博士读了一半就跑了；他是百亿营收大厂安克创新的创始人兼CEO，也曾在谷歌做搜索算法的研发；他的公司主要做的是充电宝、扫地机器人这些消费类电子产品，但我们聊的是人工智能、芯片等等硬科技。

我们聊了接近两个小时，我梳理了他们对谈的全部内容，一共有两篇，第一篇在这里。本文是第二篇，我们讨论了AI的落地、应用、为何阳萌和安克会对AI有这么深入的思考，以及安克在AI时代的定位和人才需求。内容很长，但相信肯定会对你有所启发。

以下内容来自阳萌的叙述，当中「我」，都指阳萌。

AI落地的困境

由于我自己的机器学习背景，安克算是大模型落地应用最“激进”的公司之一。比如我们一天的几万封邮件里，已经有40%的邮件是完全由大模型基于知识库加agent来独立回复的。但是，这个过程里面我们也感觉到了很大的瓶颈。

具体来说，就是今天的大模型可以看成是一个被训练得特别好的大学生，但是它对你的领域知识一无所知。换句话说，如果要真正解决每个人的问题，一定要把领域知识真正有效地结合进大模型里，而这个就成了阻碍大模型更大规模应用的最关键问题。

我们自己分析问题的时候，喜欢把所有的选项摆在一根从左到右的轴上，然后找到极左和极右以及中间的可能的选项。

这个问题中，极左是最激进的选项，即重新训练，也就是拿你的数据、再加一些别的数据，重新训练一个大模型；左边往中来一步，即微调，也就是用几百、几千条数据去 fine tuning 一个大模型。

再看右边：极右是叫关键词工程prompt engineering，本质就是写提示词；右边往中间，就是RAG（retrieval augmented generation），也就是在外面存一个知识库，每一次问题，就把知识库里相关的知识去搜索和提取出来，然后带着这些知识送进大模型，也就是大家经常说的few shots。

但是，除了这 4 个选项之外，就没有别的选项了吗？其实还有一个，就是把context做长，当context无限长时，理论上就可以把你所有的知识和记忆都prefill到context里，这样也实现了大模型和私域知识的结合，所以，这算是第 5 种解法。

那究竟哪一种是最有希望的解法呢？

首先，极左和极右都是会被很快扔掉的，因为你不可能要求一个公司或个人去重新训练大模型或微调。然后，提示词的信息量太少了，所以这种方案也不可行。这样留在桌子上的只有长context和 RAG 这两个选项。

学术界有两派观点，一派人认为是RAG，一派人认为是长上下文（long context）。有趣的是，做深度学习的人好像偏向于用RAG，而以前做过搜索的人会偏向于用 long context 。也就是说，大家都选择了自己以前没干过的那一项，而选择了自己以前专业相反的那一项。

以我自己举例子，我以前做过搜索，我知道做搜索里有多少困难。搜索本质上是用分治法去解决问题的，要分词、建索引，然后来了一个词之后要去召回，还要排序，是个非常复杂的过程。Google当年有一千个人的团队做搜索，还有很多地方不够用。所以，我也会下意识地认为 RAG 这条路是走不通的。

我认为最后会走一个仿生的方法，像人脑一样，也就是真正的有一个足够长的 context 。

比如从今天开始，你在数字世界和现实世界看过的、听过的和做过的所有事情都能被文本文化或者视频化，然后被 prefill 到 context 里。也就是说，大模型能有你的知识和记忆，再加上它极强的通用的推理能力。就有点类似于在哈利波特里，可以从脑子里提取记忆，然后把它们保存起来。

我有一次跟手机厂的朋友们聊天，就说到手机其实特别适合干这个，因为对于绝大多数人来说，他的现实生活和他的数字生活大部分都发生在一个手机里。

换句话说，是否可能在手机上部署一个传感器，把我们所有看过的、去过的、干过的、听过的、说过的都记录下来，在本地产生一个 context 。所以真正的问题或许是，你是愿意这个 context 保存在你手机本地，还是上传到云端？

对于我来说，我赞成立法禁止能够持续不断地去净化自己的模型存算训一体模型，这种模型太恐怖了，因为我们完全没有办法去预知、甚至管控它们朝什么方向进化。

虽然从理论上推导，未来一定会出现这个模型，但是我希望立法禁止。今天大模型被训练出来之后，还要花了好几个月时间去做各种对齐，并且消除掉它的攻击性和破坏性。然而一旦出现一个能不断自我进化的模型，请问怎么能对它做有效的管控和对齐？

我赞成的是，一个稳定高效的、被训练好就不动的模型部署在端侧，它可以记录我所有知识和记忆的上下文。但需要注意的是，这个上下文一定不能跑到云端，它只能存在于我的端侧。

就像哈利波特里保存记忆的小玻璃瓶，要紧紧地收起来，不能给别人。

大模型+机器人，能否成为未来的爆款？

我们可以先对这个问题做个抽象。

首先，每一个你身边有名字的物体和人，我们把它叫一个「对象」，比如你有朋友、父母、同事、甚至宠物，都是对象。除了对象，还有一层叫「角色」，比如你的助理、朋友、爱人，都是一个角色。

之所以要区分对象和角色，是因为对象其实可能从一个角色开始，并能逐步够扮演多个角色。比如ta以前可能是你的助理，后来你觉得聊得挺好，他就开始变成你朋友的角色。然后你发现你们聊得越来越多，你开始跟ta陷入一种情感的状态，ta就开始承担恋人的角色了。所以，同样一个对象，在逐步的发展过程中承担了几个不同的角色。

其实我刚刚讲的就是《HER》这部电影，非常推荐去看一下。

今天的GPT其实是一个对象。它今天肯定在扮演你助理的角色，比如回答问题、查资料、写东西等等。今天的 GPT 其实还不太能跟你聊好天，但假定它变得好玩了，它就变成你朋友的角色了。然后如果再往前，你们聊得很多，可能角色还会新增...

话说回来，在这个抽象的基础上，我们对未来的假设是，一定不会有一个超强人工智能，把所有的角色都在一个对象上承担掉。

我们的生活其实是跟很多对象在交互的。但如果今天有个超强人工智能，一个“人”就能把这些对象所承担的角色都取代，然后变成你只和它交互，你会不会觉得很恐怖？这意味着你生活里太多的空间，被一个对象占据。但很多时候你希望不同的对象之间是有区隔的，比如说，你跟助理聊的很多东西，不一定希望让你的爱人知道...

所以未来我会觉得有很多个不同的人工智能体，有很多不同的对象去扮演不同的角色。映射到机器人这个领域，我觉得也是一样，未来不会只有一个机器人帮你解决所有的问题，而应该有不同的机器人去解决不同的问题。

比如假设你的家庭生活里有两个角色，一个叫保姆阿姨，一个是宠物。阿姨帮你洗衣做饭、打扫卫生，所以这个角色会出现一些机器人的对象出来。宠物同理，不论是狗还是猫，这个角色也会出现一些机器人的对象出来。

然后还有一种，叫孩子。孩子和宠物都有陪伴的属性，但孩子有更多的成长属性。所以未来是不是也会有养成类的机器人去扮演一个孩子的角色呢？

所以我们最起码识别到了 3 类机器人，服务机器人、陪伴机器人和陪伴+成长机器人，但如果这三类机器人合成一个实体，应该会非常奇怪，所以我觉得最起码这里面有三种不同的机会。

大模型加持的机器人，有什么不同？

传统的机器人都是用分治法加数理逻辑、数理模型控制的，而新的机器人一定是端到端的算法来控制的。今年谷歌新发的论文，他们已经把模型分化成了大脑层和小脑层。大脑层是一个超大参数的模型，它的计算的频率其实很低，每秒钟可能就一两次，它核心是做出意图和决策。

而小脑层其实可能就是一个很小的几百兆参数的模型，它每秒钟都运行很多次，而它核心是维持你的运动、并且针对环境做出响应。所以未来在一个大脑和小脑的两层模型共同支配的机器人上面，其实能做到今天很多传统模型机器人做不到的事情。

更准确的说，未来可能会是三层，对应大脑，小脑加一定数量的反射弧。

成本，影响未来智能机器人消费选择？

另外一个问题是，对于特别简单的任务和角色，是不是不用分化出大小脑的差别？我想从成本的角度看这个问题。

成本现在也是限制大家考虑消费级人工智能或机器人的一个重要因素。现在很多人的心态是，可以接受花30万买一辆车，汽车在某种意义上也是一种机器人。但是，如果花30万买一个人形机器人放在家里，可能绝大多数人还没办法接受。

如果今天一套大小脑的硬件加算法需要花费到几百几千美金，那大概率我们不会在一个扫地机器人上装这一套复杂的大小脑系统。其实，今天最顶级的扫地机器人，整个芯片的成本也就是小几百块人民币而已，也就是说，它其实用不起很贵的算力。但反过来讲，如果这个大小脑的软硬件系统的成本降到了小几百块钱，为什么不用呢？

我特别相信未来的世界里一定会有多种不同的机器人，并承担不同的角色。而且即使是同样的一个角色，比如家里的保姆，我觉得也不会完全只由人形机器人来替代。譬如家里其实有很多的活要干，除开扫地之外，还有洗衣服，买菜、做饭、带小孩……那难道家里要买两三个人形机器人去做这些不同的事情吗？可能是一个人形机器人，搭上几个相对简单的、擅长专业领域的机器人，就把家里的所有事干了，那样我相信是会更经济的。

安克为什么会思考人工智能的未来发展？

很多人了解安克是从充电产品、充电宝或者充电器开始的，但其实今天充电宝的销售额占安克总销售额不到10%了。我们有三个大的方向，首先是“电”，比如数码充电，包括充电宝、充电器这些；然后是移动储能，可以理解是大的电池；然后还有刚刚在北美发布的户用储能。

我们的第二个产业方向是“影音”，比如蓝牙耳机、音箱、会议设备，投影这四个品类。

第三个品类是“智能家居”，目前主要包括安防和清洁这两个品类。在欧美的安防市场，比如家里装的摄像头，门铃、门锁这些品类里，安克已经做到了高端市场的第一名，400美金以上的消费级安防监控系统中，40%左右的市场份额是我们的。

今天的安克有超过2000个研发和工程师，包括约1000个软件工程师，100 个算法工程师，300个APP和云端工程师，300个嵌入式工程师，以及100多个it系统的开发工程师。

大的科技公司分两类，一类是专注做好非常少数超级品类的科技公司，像苹果和OPPO，另外一类是像我们这样的、要做好很多个细分品类的科技公司。再打开看的话，你发现其实这两类公司底层都是有一点像的，就是我们都需要很深厚的技术积累。

拿算法举例，我们差不多有100个算法工程师，所以在无论是深度学习，大模型的应用，还是在一些特别领域比如声音，都离不开算法的支持。我们现在用的麦克风，背后的声音算法是一个三四十个人的声音团队做的，里面技术细节很多，包括回声抑制、噪音消除、人声增强等等，实现的过程也很有意思。

以前大家都是用分治法解决问题的，本质上还是多个小模型的结合。那从底层来看，是不是可以用一个大模型解决所有的问题？没有人这么干过，学术论文好像也没有。于是我们就用了一两年，通过一个大模型，解决了所有的这些降噪和声音增强等问题，实现了很好的效果。所以今年这套模型会部署到我们的各种产品上面，我们内部评测下来，各项指标都能碾压世界上所有最好的同行。

这不是传统的语言大模型，而是我们自己训练的、针对音频这个领域的一个 all in one 的大模型。

安克如何使用大模型？

首先，安克有很多应用场景，无论从安防还是清洁，还是更复杂的任务，我们相信都需要有非常强的大模型支撑，但最好不是很多个不同的模型。我们认为，未来大概率是“一条流水线”加“两三个基座模型”。

所谓一条流水线，就是收集数据，清洗数据、标记数据，训练模型、评估模型，做数据闭环，这是一条模型和数据流水线。在流水线上我们希望能够产生两到三个基座，也就是能拿来解决各种不同应用问题的模型。

我们相信，在大模型的加持下，很多品类要么值得被重新做一遍，要么创造出全新形态的产品。所以，其实我觉得未来的十年会是硬件领域创业最黄金的十年。对我们来讲，要先做好流水线和底座模型，能够快速地应用到各个不同领域里，相信对每一个领域都能给客户创造出非常有价值的产品。

每个领域都要新做一个模型？

这样肯定是不够有效率的，如果今天能把很多共性的东西抽象到一个底层的平台上，比如抽象到我刚说的一个流水线和几个基座模型上，基于这个平台再去快速地赋能到不同的细分品类，它的整体的效率会更高，这也是我们今天做细分品类的逻辑。

如果在很多个细分品类都要做出高创新度的产品，就需要有一层非常强的赋能层，要能够嫁接很多有创造力的人，愿意在某个技术或、产品品类、或者愿意在某一个市场、某个国家去创造。然后平台和这些创造者相互作用，就能高效的在很多细分品类把大模型等先进技术应用起来，然后做出真正极具创新的、开拓性的产品。

我们描绘的是一种平台和创造者们相互成就、在很多细分品类做出真正的有创造力的产品，然后获得商业成功的画面，我们内部叫“土壤肥沃，花团锦簇”。我们花了很多时间去打造肥沃的土壤，同时也希望能够吸引更好的创造者。

优秀创造者的关键品质

很多极具创造力的人，其实都有相同的底层特质。

第一，就是有特别强的「第一性」思维。他们敢于抛开今天人们习以为常的东西和表面事实，敢于回归到基础原理上，真正通过推导构建系统并发现突破的关键，总结起来就是：抛开表面事实，回归基础原理，找到突破关键。

举个例子：马斯克当年造电动车的时候，大家都说不可能，因为电池就要花5万美金，实在太贵了，造出来的车会没人买。如果他当时被这个表面事实吓退了，今天就不会存在特斯拉了。马斯克从第一性原理出发，去追问电池卖5万美金底层的原因，最后发现产品的价格等于原材料成本，加上加工制造的费用，加上制造商的利润，这是基础原理。

然后再从里面找突破关键，他发现其实原材料的成本只有5000美金，而加工制造费用和利润有45000美金。也就是说，如果能够通过足够的垂直整合，把规模拉大，从而把45000美金降低到5000美金的话，是不是电动车就可以做了？这就是一个我觉得抛开了表面事实，回到了基础原理里面去找到突破关键的例子。

你会发现第一性原理找到的方向往往是没有人走过、甚至可能有人走过已经死了的方向，所以这时还要有胆量、有决心、有勇气去走这条路。这是我们的第二个价值观「求极致」，也就是敢于顶着风险想尽办法去追求一个长期的全局最优。

同样用马斯克的例子，虽然他觉得电动车的逻辑是成立的，但是他仍然花了15年，熬过了好几次可能破产的经历，才把第一性的方向实现出来。对于我们也是这样，今天的安克可能不用愁生存，我们哪怕有几次失败也不会死。所以我和同事说，大家一定要敢于去求极致。

组织越大，大家就越容易待在舒适区里，所以要通过价值观去指引和塑造正确的方向。第一性，帮助找到正确的方向；求极致，敢于脱离大部队往前走。最后第三条我们叫「共成长」，它本质上包含了几项：首先是长期主义，因为第一性和求极致一定是要很长时间才能完成的，如果没有长期主义的话，这条路径是走不下去的；其次是持续学习、自我觉察和自我进化。

长期主义里很重要的一条叫终局思维，就是我们要看清未来的局面，指引当下的选择。看清那条路，坚定地走，不要管别人怎么说。还有一条也很关键，叫延迟满足，就是你敢于为了更大的长期利益而去放弃当下的短期利益。有些人是缺两条、有些人缺一条，但无论你缺哪一条，都不能算作是真正的长期主义。

客观地讲，其实有这样价值观的人是非常少的，把他们放在一个价值观不同的环境里也是很难受、很痛苦的。我认为，有这些价值观的人其实也想寻找同样价值观的人群，寻找有同样价值观的环境。

我相信老石的关注者里有很多和我们相同价值观的朋友，所以我也想向你们发出邀请，来安克这样一个真正高价值观的地方，创造价值、有所收获。我们有个总结叫有机会、有成长、有回报、有意义。安克有很多机会，这些机会能给你带来真正的成长，然后一定会有回报，会赚到钱。最后的话，我们在一起创造了很了不起、很突破的东西，我们也会因此有很强的意义感。

我们发现，人真的是可以被价值观感召和改变的。把他放到一个环境里之后，就会觉得这个行为会受到特别的支持和鼓励，于是他就会慢慢变得更好。公司如果从社会上招到一个好的人，从博弈论的角度，这是一个零和博弈。也就是我招了一个“好人”、别的公司就少一个“好人”。但如果今天我们在这个环境里能把更多的人培养成更加第一性、求极致、长期主义的人，那我们觉得我们是在为社会培养人才，而不是在做零和博弈，这也是我觉得很开心的地方。

（注：本文不代表老石任职单位的观点。）

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATSAM4S16BA-AU	1	Atmel Corporation	RISC Microcontroller, 32-Bit, FLASH, CORTEX-M4 CPU, 120MHz, CMOS, PQFP64, LQFP-64	ECAD模型下载ECAD模型	$7.22	查看
LPC4357FET256,551	1	NXP Semiconductors	LPC4357FET256 - Dual-core Cortex-M4/M0, 1 MB Flash, 136 kB SRAM, 2 HS USB with on-chip PHY, Ethernet, LCD, CAN, AES, SPIFI, SGPIO, SCT BGA 256-Pin	ECAD模型下载ECAD模型	$15.87	查看
ATXMEGA64D4-AU	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44TQFP		$3.44	查看