AI人物志-强化学习之父Richard Sutton

AI人物志系列：理解智能的本质，需要理解创造它的人。本系列记录那些在寒冬中坚守、在狂热中清醒的灵魂，他们的弯路与开悟，构成了AI的真正历史。

当全世界都在谈论AlphaGo的奇迹时，很少有人知道，那个让机器学会"思考未来"的人，已经在加拿大的寒风中等待了四十年。

2016年3月，韩国首尔四季酒店。AlphaGo与李世石的围棋对决进入白热化。当AlphaGo下出那手震惊世界的"神之一手"时，全球数亿观众为之疯狂。但在遥远的加拿大埃德蒙顿，一位留着胡子、穿着格子衬衫的老人只是微微一笑，然后继续在他的白板上写着公式。

他叫Richard Sutton。他是强化学习之父，是AlphaGo背后的理论奠基人。但此刻，他没有在看直播——他已经知道结果。四十年的等待，终于等到了这一天。

“AlphaGo证明了强化学习可以工作，“Sutton后来平静地说，“但我更关心的是，它还能做什么。”

马萨诸塞州的童年：一个关于选择的谜题

1957年，Sutton出生在美国马萨诸塞州的一个普通家庭。他的父亲是一位工程师，母亲是一位教师。从小，Sutton就展现出对数学和逻辑的痴迷。

但真正改变他的是一本旧书。

那是1960年代末，Sutton在图书馆的角落里发现了一本关于心理学的书。书中描述了一个实验：老鼠在迷宫中学习找到食物。Sutton被这个简单的场景迷住了——没有老师，没有标签，只有尝试、错误、和奖励。老鼠通过不断尝试，学会了最优路径。

“这就是学习的本质，“年轻的Sutton想，“不是被教导，而是通过互动。”

这个念头像一颗种子，埋进了Sutton的心里。他不知道，这颗种子将在四十年后长成参天大树。

斯坦福的困惑：监督学习的局限

1970年代末，Sutton进入斯坦福大学学习计算机科学。那是AI的第一次寒冬，但Sutton对主流的方向感到困惑。

当时的主流是监督学习——给机器大量标注数据，让它学会从输入到输出的映射。但Sutton觉得这种方法有问题：人类不是这样学习的。婴儿学走路，不是通过看一万个"正确走路"的示例；棋手学棋，不是通过记忆所有可能的局面。

人类学习是通过试错，通过与环境的互动，通过奖励和惩罚。

“监督学习假设有一个’正确答案’，“Sutton后来解释，“但现实中，很多问题的答案取决于你未来的行动。下棋时，这一步的好坏取决于你后面怎么下；投资时，这个决策的好坏取决于市场未来的变化。”

Sutton想要一种不同的学习范式——强化学习（Reinforcement Learning）。在这种范式中，智能体通过行动影响环境，环境反馈奖励或惩罚，智能体的目标是最大化长期累积奖励。

这不是简单的输入-输出映射，这是一个序列决策问题。

时序差分：在未知中寻找答案

1984年，Sutton在麻省大学阿默斯特分校读博士时，做出了他一生中最重要的贡献——时序差分学习（Temporal Difference Learning）。

核心问题很简单：如何估计一个状态的价值？在棋局中，当前局面的价值取决于从当前局面出发，最终能赢还是输。但我们不知道最终结果，我们只能一步步走下去。

Sutton的洞见是：我们可以用当前的估计来更新当前的估计。

具体来说，当我们从状态A走到状态B时，我们可以用状态B的当前价值估计来更新状态A的价值估计。如果状态B看起来很好，那么状态A也应该变得更好；如果状态B看起来很糟，那么状态A也应该变得更糟。

这种"自举（bootstrapping）“的方法看起来像是循环论证——用估计来更新估计，能收敛吗？

Sutton用数学证明了，在某些条件下，它能收敛。而且，它比传统的蒙特卡洛方法（等到游戏结束才更新）更快、更高效。

“时序差分是人类学习的方式，“Sutton说，“当我们做一件事时，我们不需要等到最终结果才知道好坏。我们可以根据中间反馈实时调整。”

这篇1988年发表的论文，成为强化学习领域的奠基之作。但当时的AI社区对此反应冷淡。

漫长的冬天：在边缘坚守

1980年代到2000年代，强化学习处于AI的边缘。

监督学习有ImageNet，有深度学习，有耀眼的成果。但强化学习呢？它只能在简单的玩具问题上演示，比如让机器人在网格世界里找路，或者让杆子在车上保持平衡。

“那时候很难，“Sutton回忆，“申请经费被拒，发表论文困难，学生招不到。人们问，‘这东西能做什么？‘我回答不了。”

但Sutton没有放弃。他相信，强化学习的问题不是理论问题，是规模问题。当时的计算机不够快，模拟环境不够复杂，算法无法展现真正的能力。

“我们需要等待，“Sutton说，“等待计算能力的提升，等待合适的应用场景。”

这个等待持续了将近三十年。

在这期间，Sutton培养了一批学生，其中最著名的包括David Silver——后来AlphaGo的核心开发者。Sutton把强化学习的火种传递给了下一代，即使他自己看不到火焰燃起的那一天。

“我告诉他们，这不是一个热门的领域，“Sutton说，“但如果你相信它，就坚持下去。”

2013年的突破：Atari游戏上的奇迹

2013年，DeepMind发表了一篇论文，震惊了整个AI社区。

他们用一个简单的强化学习算法（DQN，深度Q网络），在没有任何先验知识的情况下，学会了玩Atari电子游戏。不是一两个游戏，是几十个游戏。而且，在某些游戏上，AI的表现超越了人类专家。

Sutton看到这篇论文时，知道等待结束了。

“DeepMind证明了，强化学习可以扩展到复杂问题，“Sutton说，“不是通过更聪明的算法，而是通过深度学习来近似价值函数。”

这是Sutton理论的完美验证。时序差分学习需要估计状态的价值，但对于复杂问题（比如游戏画面），状态空间太大，无法用表格存储。深度学习提供了近似价值函数的方法——用神经网络来估计"这个画面有多好”。

DeepMind的创始人Demis Hassabis后来承认，他们的工作建立在Sutton的理论基础之上。

“Sutton是强化学习的奠基人，“Hassabis说，“没有他的工作，就没有AlphaGo。”

AlphaGo：等待四十年的答案

2016年，AlphaGo击败李世石，成为AI历史上的里程碑。

AlphaGo的核心是蒙特卡洛树搜索（MCTS）结合深度神经网络。但很少有人知道，MCTS的理论基础正是Sutton在1980年代发展的强化学习方法。

具体来说，AlphaGo使用了Sutton的**策略梯度（Policy Gradient）**方法。它不是简单地估计状态价值，而是直接优化策略——教网络"在这种情况下应该怎么下”。

“AlphaGo是强化学习的胜利，“Sutton说，“但它也是开始，不是结束。”

Sutton指出，AlphaGo的成功有几个关键因素：

完美的模拟环境：围棋规则明确，可以完美模拟。现实世界没有这么干净。
大量的自对弈数据：AlphaGo通过自己跟自己下棋，生成了数百万局数据。现实世界的数据是昂贵的。
明确的奖励信号：赢或输，一目了然。现实世界的奖励是延迟的、模糊的。

“围棋是强化学习的理想测试场，“Sutton说，“但真正的挑战在现实世界。”

当下的沉思：强化学习的下一个前沿

站在2026年，Sutton正在思考强化学习的下一个前沿。

他认为，当前的强化学习还有几个根本问题需要解决：

样本效率：AlphaGo需要数百万局游戏才能学会下棋，人类只需要几百局。如何让学习更高效？

泛化能力：AlphaGo只会下围棋，不会下象棋。如何让学到的知识迁移到其他任务？

真实世界：围棋有完美的模拟器，但现实世界没有。如何让强化学习在真实环境中工作？

Sutton的答案是：预测。

“智能的本质是预测，“Sutton说，“预测接下来会发生什么，预测行动的后果，预测什么策略会带来好的结果。”

他提出了**预测学习（Predictive Learning）**的概念——不是学习特定的任务，而是学习预测世界。这种预测能力是通用的，可以迁移到任何任务。

“这是强化学习的下一个阶段，“Sutton说，“从学习特定任务，到学习通用的预测能力。”

说到底：一个长期主义者的胜利

Sutton的故事，是一个关于长期主义的故事。

他在1984年提出了时序差分学习，但直到2016年才被广泛认可。这三十二年间，他经历了AI的寒冬，经历了资金的匮乏，经历了同行的质疑。但他从未放弃。

“我相信延迟的奖励，“Sutton说，“这是强化学习的核心思想，也是我的人生哲学。”

这种哲学让Sutton成为AI界的异类。当其他人追逐热点、发表论文、争取经费时，Sutton专注于基础理论，相信时间会证明一切。

“我不是最聪明的，“Sutton承认，“但我可能是最有耐心的。”

这种耐心最终得到了回报。AlphaGo的成功让强化学习成为AI的主流方向，Sutton的理论被写进教科书，他的学生成为业界的领军人物。

但Sutton没有停下脚步。对他来说，AlphaGo只是开始。真正的挑战——让机器在真实世界中学习、让AI拥有通用的预测能力、让强化学习造福人类——还在前方。

“我等了四十年才看到AlphaGo，“Sutton说，“我可以再等四十年，看到下一个突破。”

全局来看，Sutton的一生诠释了基础研究的价值。他不追求短期的成果，不追逐热点，他专注于最根本的问题：如何让机器通过与环境的互动来学习。这种专注让他在边缘坚守了三十年，最终等来了属于他的时代。

他不是最耀眼的明星，但他是最坚实的基石。当AlphaGo下出那手"神之一手"时，全世界都在惊叹，但只有少数人知道，那个让机器学会"思考未来"的人，已经在寒风中等待了四十年。

而这，就是一个长期主义者的最高成就。

FIN -

马萨诸塞州的童年：一个关于选择的谜题#

斯坦福的困惑：监督学习的局限#

时序差分：在未知中寻找答案#

漫长的冬天：在边缘坚守#

2013年的突破：Atari游戏上的奇迹#

AlphaGo：等待四十年的答案#

当下的沉思：强化学习的下一个前沿#

说到底：一个长期主义者的胜利#

参考#