编者按:日前,杨立昆(Yann LeCun)应邀在AMS(美国数学学会)著名的Josiah Willard Gibbs讲座上,进行了主题为《通往人类水平人工智能的数学障碍》的演讲。
杨立昆,法国计算机科学家,现任Meta首席AI科学家和纽约大学教授。他在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献。他最著名的工作是在光学字符识别和计算机视觉上使用卷积神经网络,他也被称为卷积网络之父。他同莱昂·博图和帕特里克·哈夫纳(Patrick Haffner)等人创建了DjVu图像压缩技术,同莱昂·博图开发了Lush语言。2018年他和约书亚·本希奥以及杰弗里·辛顿共同获得计算机学界最高奖项图灵奖。
杨立昆多次公开批评大语言模型(如GPT)的局限性,认为其缺乏真正的理解能力。他认为当前实现AI的方法(如大语言模型)在表面智能下隐藏着本质缺陷,无法实现真正的理解或推理。他呼吁转向更接近人类认知的架构,强调自主学习、世界建模和低能耗高效学习。也因此,他备受争议,在舆论和工业界的影响力被边缘化。支持者认为他是“清醒的批判者”,反对者则认为他“低估了大模型的潜力”。他在社交媒体上频繁辩论,甚至被部分激进的大模型拥护者攻击。
Josiah Willard Gibbs讲座由AMS于1923年成立,旨在强调数学在推进研究和应对实际挑战方面不断发展的作用。以数学物理学家Josiah Willard Gibbs(1839-1903)的名字命名,他的基础工作影响了理论和应用科学。该讲座旨在表彰那些展示了数学深度和广度的贡献者,受邀亦被视为学术界的荣誉。
杨立昆的这次演讲长达一小时,本文在保持原意前提下进行了适度浓缩,重点突出了从数学视角分析AI瓶颈的核心论述。以下为演讲内容。
今天我要探讨的是人工智能,这个全民热议的领域,特别是通往人类级AI道路上的障碍。许多AI研究者认为,未来十年我们或许能构建出具备人类智能雏形的机器。关于实现时间的预测众说纷纭:最乐观者宣称已触手可及,某些融资方声称明年就能实现(我个人持怀疑态度),但我认为确有突破可能。接下来我将阐述AI研究的应然方向、现存障碍——其中不少本质上是数学障碍。
为何需要人类级AI?因为在不久的将来,AI助手将如影随形。通过智能眼镜等设备(当前无屏版本已商用,带显示屏的高端型号也即将面世,Meta同事研发的Orion原型就是例证),我们终将实现全天候的语音交互与智能辅助。想象每个人都能像政要或CEO那样,拥有智能虚拟团队随时待命。但现实是:我们尚未掌握构建这种系统的技术。
当前机器学习的学习效率远逊于生物。无论是监督学习(需要标注数据)还是强化学习(仅反馈好坏),其样本效率都难以企及人类举一反三的能力。近年兴起的自监督学习虽革新了AI(如大语言模型ChatGPT的核心技术),但仍有根本局限:它仅通过预测序列中的下一个符号(如文本中的单词)来训练,而人类却能通过极少量样本理解世界运作规律,具备常识推理与目标导向行为。
大语言模型的工作原理本质是自回归预测:通过海量文本训练神经网络预测序列中的下一个符号(如单词或DNA碱基)。虽然这种技术在处理离散符号时表现出色,但其数学本质决定了致命缺陷——自回归预测是指数发散的误差累积过程。假设每次预测有微小误差,随着序列延长,正确概率会呈指数级衰减((1-ε)^n)。即便误差率ε极低,长序列生成也必然偏离合理范围。这就是当前大语言模型时常“胡言乱语”的根源。因此我断言:自回归模型终将被淘汰。
要实现真正的人类级AI(我更愿称之为“高级机器智能/AMI”,法语中意为“朋友”),必须突破五大能力:1)通过感知输入学习世界模型;2)具备持久记忆;3)规划复杂行动序列;4)逻辑推理能力;5)本质安全的系统架构。这要求我们彻底革新AI的推理范式——从现行的固定计算步长前馈网络,转向基于优化的推理系统。
这种“目标驱动AI”并非新概念:最优控制中的模型预测控制(MPC)正是典型案例。其核心是构建可微的世界模型和代价函数,通过梯度下降优化行动序列。但面临三大数学挑战:1)不确定环境下的潜变量建模;2)分层规划(人类天然具备将巴黎之行分解为“打车-值机-登机”子任务的能力);3)非确定性动力学中的优化收敛性。
为学习世界模型,我们需要摒弃生成式架构(其预测模糊均值的问题无解),转向联合嵌入预测架构(JEPA)。JEPA通过编码器提取抽象表征,过滤不可预测的细节(如视频中墙面纹理),仅保留可预测的因果结构。训练这类系统需解决能量模型的两个根本问题:防止坍塌(能量函数趋于常值)和高效正则化。
我们提出的VICReg方法(方差-协方差正则化)通过对表征矩阵列向量实施去相关约束,比对比学习更适合高维空间。有趣的是,当用此方法训练PDE系数识别系统时,其表现竟优于监督学习——这暗示自监督可能揭示了更深层的物理规律。
在视频预测任务中,经过掩码训练的JEPA系统展现出类“常识”:当看到物体违反物理规律消失时,其预测误差会骤增,就像九个月大婴儿对悬浮物体的惊讶反应。在机器人规划实验中,基于自监督表征的世界模型能成功指导机械臂将散落积木排列成阵——尽管系统从未见过精确的“方形”定义。
这些突破指向一个未来:开放平台的AMI将成为人类智能的放大器。要实现这个愿景,我们必须:
1)用联合嵌入替代生成模型;
2)以能量函数替代概率模型;
3)发展基于正则化的学习方法;
4)用模型预测控制取代强化学习。
对于年轻研究者,我的建议是:切勿扎堆大语言模型研究(你无法抗衡万卡集群),而应投身世界模型、分层规划等基础问题——那里才有真正的智能密码。