AI人物志系列:理解智能的本质,需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂,他们的弯路与开悟,构成了AI的真正历史。
当全世界都在谈论AlphaGo的奇迹时,很少有人知道,那个让机器学会"思考未来"的人,已经在加拿大的寒风中等待了四十年。
2016年3月,韩国首尔四季酒店。AlphaGo与李世石的围棋对决进入白热化。当AlphaGo下出那手震惊世界的"神之一手"时,全球数亿观众为之疯狂。但在遥远的加拿大埃德蒙顿,一位留着胡子、穿着格子衬衫的老人只是微微一笑,然后继续在他的白板上写着公式。
他叫Richard Sutton。他是强化学习之父,是AlphaGo背后的理论奠基人。但此刻,他没有在看直播——他已经知道结果。四十年的等待,终于等到了这一天。
“AlphaGo证明了强化学习可以工作,“Sutton后来平静地说,“但我更关心的是,它还能做什么。”
马萨诸塞州的童年:一个关于选择的谜题
1957年,Sutton出生在美国马萨诸塞州的一个普通家庭。他的父亲是一位工程师,母亲是一位教师。从小,Sutton就展现出对数学和逻辑的痴迷。
但真正改变他的是一本旧书。
那是1960年代末,Sutton在图书馆的角落里发现了一本关于心理学的书。书中描述了一个实验:老鼠在迷宫中学习找到食物。Sutton被这个简单的场景迷住了——没有老师,没有标签,只有尝试、错误、和奖励。老鼠通过不断尝试,学会了最优路径。
“这就是学习的本质,“年轻的Sutton想,“不是被教导,而是通过互动。”
这个念头像一颗种子,埋进了Sutton的心里。他不知道,这颗种子将在四十年后长成参天大树。
斯坦福的困惑:监督学习的局限
1970年代末,Sutton进入斯坦福大学学习计算机科学。那是AI的第一次寒冬,但Sutton对主流的方向感到困惑。
当时的主流是监督学习——给机器大量标注数据,让它学会从输入到输出的映射。但Sutton觉得这种方法有问题:人类不是这样学习的。婴儿学走路,不是通过看一万个"正确走路"的示例;棋手学棋,不是通过记忆所有可能的局面。
人类学习是通过试错,通过与环境的互动,通过奖励和惩罚。
“监督学习假设有一个’正确答案’,“Sutton后来解释,“但现实中,很多问题的答案取决于你未来的行动。下棋时,这一步的好坏取决于你后面怎么下;投资时,这个决策的好坏取决于市场未来的变化。”
Sutton想要一种不同的学习范式——强化学习(Reinforcement Learning)。在这种范式中,智能体通过行动影响环境,环境反馈奖励或惩罚,智能体的目标是最大化长期累积奖励。
这不是简单的输入-输出映射,这是一个序列决策问题。
时序差分:在未知中寻找答案
1984年,Sutton在麻省大学阿默斯特分校读博士时,做出了他一生中最重要的贡献——时序差分学习(Temporal Difference Learning)。
核心问题很简单:如何估计一个状态的价值?在棋局中,当前局面的价值取决于从当前局面出发,最终能赢还是输。但我们不知道最终结果,我们只能一步步走下去。
Sutton的洞见是:我们可以用当前的估计来更新当前的估计。
具体来说,当我们从状态A走到状态B时,我们可以用状态B的当前价值估计来更新状态A的价值估计。如果状态B看起来很好,那么状态A也应该变得更好;如果状态B看起来很糟,那么状态A也应该变得更糟。
这种"自举(bootstrapping)“的方法看起来像是循环论证——用估计来更新估计,能收敛吗?
Sutton用数学证明了,在某些条件下,它能收敛。而且,它比传统的蒙特卡洛方法(等到游戏结束才更新)更快、更高效。
“时序差分是人类学习的方式,“Sutton说,“当我们做一件事时,我们不需要等到最终结果才知道好坏。我们可以根据中间反馈实时调整。”
这篇1988年发表的论文,成为强化学习领域的奠基之作。但当时的AI社区对此反应冷淡。
漫长的冬天:在边缘坚守
1980年代到2000年代,强化学习处于AI的边缘。
监督学习有ImageNet,有深度学习,有耀眼的成果。但强化学习呢?它只能在简单的玩具问题上演示,比如让机器人在网格世界里找路,或者让杆子在车上保持平衡。
“那时候很难,“Sutton回忆,“申请经费被拒,发表论文困难,学生招不到。人们问,‘这东西能做什么?‘我回答不了。”
但Sutton没有放弃。他相信,强化学习的问题不是理论问题,是规模问题。当时的计算机不够快,模拟环境不够复杂,算法无法展现真正的能力。
“我们需要等待,“Sutton说,“等待计算能力的提升,等待合适的应用场景。”
这个等待持续了将近三十年。
在这期间,Sutton培养了一批学生,其中最著名的包括David Silver——后来AlphaGo的核心开发者。Sutton把强化学习的火种传递给了下一代,即使他自己看不到火焰燃起的那一天。
“我告诉他们,这不是一个热门的领域,“Sutton说,“但如果你相信它,就坚持下去。”
2013年的突破:Atari游戏上的奇迹
2013年,DeepMind发表了一篇论文,震惊了整个AI社区。
他们用一个简单的强化学习算法(DQN,深度Q网络),在没有任何先验知识的情况下,学会了玩Atari电子游戏。不是一两个游戏,是几十个游戏。而且,在某些游戏上,AI的表现超越了人类专家。
Sutton看到这篇论文时,知道等待结束了。
“DeepMind证明了,强化学习可以扩展到复杂问题,“Sutton说,“不是通过更聪明的算法,而是通过深度学习来近似价值函数。”
这是Sutton理论的完美验证。时序差分学习需要估计状态的价值,但对于复杂问题(比如游戏画面),状态空间太大,无法用表格存储。深度学习提供了近似价值函数的方法——用神经网络来估计"这个画面有多好”。
DeepMind的创始人Demis Hassabis后来承认,他们的工作建立在Sutton的理论基础之上。
“Sutton是强化学习的奠基人,“Hassabis说,“没有他的工作,就没有AlphaGo。”
AlphaGo:等待四十年的答案
2016年,AlphaGo击败李世石,成为AI历史上的里程碑。
AlphaGo的核心是蒙特卡洛树搜索(MCTS)结合深度神经网络。但很少有人知道,MCTS的理论基础正是Sutton在1980年代发展的强化学习方法。
具体来说,AlphaGo使用了Sutton的**策略梯度(Policy Gradient)**方法。它不是简单地估计状态价值,而是直接优化策略——教网络"在这种情况下应该怎么下”。
“AlphaGo是强化学习的胜利,“Sutton说,“但它也是开始,不是结束。”
Sutton指出,AlphaGo的成功有几个关键因素:
- 完美的模拟环境:围棋规则明确,可以完美模拟。现实世界没有这么干净。
- 大量的自对弈数据:AlphaGo通过自己跟自己下棋,生成了数百万局数据。现实世界的数据是昂贵的。
- 明确的奖励信号:赢或输,一目了然。现实世界的奖励是延迟的、模糊的。
“围棋是强化学习的理想测试场,“Sutton说,“但真正的挑战在现实世界。”
当下的沉思:强化学习的下一个前沿
站在2026年,Sutton正在思考强化学习的下一个前沿。
他认为,当前的强化学习还有几个根本问题需要解决:
样本效率:AlphaGo需要数百万局游戏才能学会下棋,人类只需要几百局。如何让学习更高效?
泛化能力:AlphaGo只会下围棋,不会下象棋。如何让学到的知识迁移到其他任务?
真实世界:围棋有完美的模拟器,但现实世界没有。如何让强化学习在真实环境中工作?
Sutton的答案是:预测。
“智能的本质是预测,“Sutton说,“预测接下来会发生什么,预测行动的后果,预测什么策略会带来好的结果。”
他提出了**预测学习(Predictive Learning)**的概念——不是学习特定的任务,而是学习预测世界。这种预测能力是通用的,可以迁移到任何任务。
“这是强化学习的下一个阶段,“Sutton说,“从学习特定任务,到学习通用的预测能力。”
说到底:一个长期主义者的胜利
Sutton的故事,是一个关于长期主义的故事。
他在1984年提出了时序差分学习,但直到2016年才被广泛认可。这三十二年间,他经历了AI的寒冬,经历了资金的匮乏,经历了同行的质疑。但他从未放弃。
“我相信延迟的奖励,“Sutton说,“这是强化学习的核心思想,也是我的人生哲学。”
这种哲学让Sutton成为AI界的异类。当其他人追逐热点、发表论文、争取经费时,Sutton专注于基础理论,相信时间会证明一切。
“我不是最聪明的,“Sutton承认,“但我可能是最有耐心的。”
这种耐心最终得到了回报。AlphaGo的成功让强化学习成为AI的主流方向,Sutton的理论被写进教科书,他的学生成为业界的领军人物。
但Sutton没有停下脚步。对他来说,AlphaGo只是开始。真正的挑战——让机器在真实世界中学习、让AI拥有通用的预测能力、让强化学习造福人类——还在前方。
“我等了四十年才看到AlphaGo,“Sutton说,“我可以再等四十年,看到下一个突破。”
全局来看,Sutton的一生诠释了基础研究的价值。他不追求短期的成果,不追逐热点,他专注于最根本的问题:如何让机器通过与环境的互动来学习。这种专注让他在边缘坚守了三十年,最终等来了属于他的时代。
他不是最耀眼的明星,但他是最坚实的基石。当AlphaGo下出那手"神之一手"时,全世界都在惊叹,但只有少数人知道,那个让机器学会"思考未来"的人,已经在寒风中等待了四十年。
而这,就是一个长期主义者的最高成就。
- FIN -