从图灵到DeepSeek,强化学习飞向人工智能峰会

.

用一堆胡萝卜训练小马和骑手

美国计算机协会 (ACM)上周宣布,安德鲁·巴托 (Andrew Barto) 和理查德·萨顿 (Richard Sutton) 因“发展强化学习的概念和算法基础”而获得图灵奖。用奖励引导学习的做法已有数千年历史,在20世纪,它成为心理学理论和实验的一个主要分支的基础。

图灵奖通常被称为“计算机界的诺贝尔奖”,以艾伦·M·图灵的名字命名,他被认为是理论计算机科学之父。在 1947 年至 1950 年期间的各种论坛上,图灵提出了他的信念,即所有心理操作都是可计算的,并提出了他关于教育机器类似于儿童学习方式的想法:“人类儿童的训练很大程度上取决于奖惩制度。”

巴托和萨顿带头建立了所谓的“从互动中学习的计算方法”,开发了通过反复试验和“延迟奖励”进行有效学习的算法,这些奖励不是立即获得的,而是通过一系列行动获得的。

人们已经采用了各种方法来追求“人工智能”,或者在我看来,通过添加新的(并逐步改进的)能力(例如处理文本或语音)来扩展计算机的功能。与其他方法一样,强化学习也遭到了选择更主流方法的研究人员的反对。与其他方法一样,例如目前大获成功的深度学习(使用人工神经网络),长期以来被批评者称为“炼金术”,它最终成为主流。强化学习的胜利是“机器学习”战胜“传统人工智能”(符号人工智能)的更广泛胜利的一部分,
这种范式冲突被特里·维诺格拉德总结为“开明的反复试验”与“完美智力的规划”。多年来,人们开发了三种不同的方法来帮助计算机从示例中学习:监督学习、无监督学习和强化学习。

在监督学习中,计算机程序会根据展示的示例进行推断,以正确识别训练集中不存在的示例。Sutton 和 Barto 称其为“一种重要的学习”,但他们认为“获得既正确又能代表代理必须采取行动的所有情况的期望行为示例通常是不切实际的。在未知领域(人们认为学习最有益的地方),代理必须能够从自己的经验中学习。”

无监督学习,即示例未标记或定义,擅长发现数据元素之间的模式和关系。发现数据中的结构或模式在许多应用中都很有用,但其本身并不能解决强化学习最大化奖励的目标。“因此,我们认为强化学习是第三种机器学习范式,与监督学习、无监督学习和其他范式并列,”Sutton 和 Barto 写道。

1959 年,亚瑟·塞缪尔 (Arthur Samuel)创造了“机器学习”一词,他将其定义为“对数字计算机进行编程,使其以某种方式运行,如果由人类或动物完成,则将被描述为涉及学习过程。”斯图尔特·罗素 (Stewart Russel) 和彼得·诺维格 (Peter Norvig) 在《人工智能:一种现代方法》中写道,塞缪尔在教计算机下跳棋时“提出了强化学习的大部分现代理念” 。尽管如此,塞缪尔使用的计算机“比当今的图形处理单元 (GPU) 弱 1000 亿倍”,这限制了他使用计算机的能力。

过去十五年,GPU 驱动的人工神经网络或深度学习与 Barto、Sutton 等人开发的算法相结合,推动了强化学习的实际应用取得重大进展。谷歌的 DeepMind 在 2016 年和 2017 年的 AlphaGo 程序战胜人类最优秀的围棋选手中展示了这种组合的威力。紧随其后的是 AlphaZero,它仅使用有关这些游戏规则的信息以及从大量自我对弈中学到的策略,就学会了在三种不同的游戏(国际象棋、将棋和围棋)中击败世界冠军。

尽管取得了这样的成功,但人工智能研究人员仍然认为强化学习不是一种可行的实用方法。在2019 年的图灵奖演讲中,Geoffrey Hinton 在感叹像他这样的深度学习研究人员受到不公正对待的同时,说道:“学习算法有两种——实际上是三种,但第三种效果不太好。那就是强化学习。强化学习有一个很棒的归谬法。它被称为 DeepMind。”

2022 年,人工智能先驱吴恩达 (Andrew Ng) 在《强化学习的麻烦》一书中指出,在模拟中有效的强化学习算法在现实世界中不起作用。三年后,DeepSeek的数据高效型人工智能工程方法解决了与强化学习的数据量和计算能力要求相关的挑战。针对 DeepSeek 和另一个同样通过强化学习改进其“推理”的高性能模型,吴恩达写道:“不到三年前,强化学习看起来太过繁琐,不值得费心。现在它是语言建模的一个关键方向。机器学习继续充满令人惊讶的转折!”

理论很重要,Barto 和 Sutton 将至少三项独立的研究成果整合成现代强化学习的一个“连贯视角”。然而,巧妙的工程设计推动了现代计算或人工智能在现实环境和实际应用中的发展,创造性地调整理论模型并克服实施挑战。

“从互动中学习以实现目标的总体问题仍远未得到解决,但我们对它的理解已显著提高,”萨顿和巴托在 2018 年版的书中总结了他们的工作。他们的谦虚和对让计算机像人类一样“理解”、“思考”或“推理”有多么困难的理解应该引导那些一直承诺在一两年内实现类人人工智能或 AGI 的人工智能研究人员。

甚至“超级智能”。AGI的宣传者应该阅读或重读艾伦·图灵,他在 75 年前就曾说过:“如果一台机器被期望是绝对可靠的,那么它就不可能是智能的。”最重要的是图灵的观察,即文化和人类互动在人类智能发展中的作用,而今天的 AGI 爱好者完全忽视了这一点:“孤立的人不会发展任何智力。他必须沉浸在其他人的环境中,在他生命的前 20 年里吸收他们的技术。”