知性を理解し、知的な機械を創造することは、現代の偉大な科学的挑戦である。経験から学ぶ能力は、機械と生命体の両方にとって知性の礎石である。
先見の明のある1948年の報告書において、現代コンピュータ科学の父であるAlan Turingは、知的な振る舞いを示す機械の構築を提案した。彼はまた、そのような機械の「教育」を「報酬と罰の手段によって」行うことについても論じていた。
Turingのアイデアは最終的に強化学習の発展につながった。強化学習は人工知能の一分野である。強化学習は、環境と相互作用する中で報酬を最大化するよう訓練することで、知的なエージェントを設計する。
機械学習の研究者として、強化学習の先駆者であるAndrew BartoとRichard Suttonが2024年のACMチューリング賞を受賞したことは適切であると考える。
強化学習とは何か?
動物のトレーナーは、望ましい行動に報酬を与えることで動物の行動に影響を与えられることを知っている。犬のトレーナーは、犬が芸を正しく行ったときに犬におやつを与える。これにより行動が強化され、犬は次回もその芸を正しく行う可能性が高くなる。強化学習はこの洞察を動物心理学から借用した。
しかし、強化学習は動物ではなく計算エージェントを訓練することに関するものである。エージェントはチェスをプレイするプログラムのようなソフトウェアエージェントである場合もある。しかし、エージェントは家事を学ぶロボットのような実体を持つ存在である場合もある。同様に、エージェントの環境は、チェス盤やビデオゲームで設計された世界のような仮想のものである場合もある。しかし、それはロボットが作業している家である場合もある。
動物と同様に、エージェントは環境の側面を認識し、行動を取ることができる。チェスをプレイするエージェントはチェス盤の配置にアクセスし、駒を動かすことができる。ロボットはカメラやマイクで周囲を感知することができる。モーターを使って物理的な世界を動き回ることもできる。
エージェントには、人間の設計者がプログラムした目標もある。チェスをプレイするエージェントの目標はゲームに勝つことである。ロボットの目標は、家事で人間の所有者を支援することかもしれない。
AIにおける強化学習の問題は、環境を認識し行動することによって目標を達成するエージェントをどのように設計するかである。強化学習は大胆な主張をしている:すべての目標は、報酬と呼ばれる数値信号を設計し、エージェントが受け取る報酬の総和を最大化することによって達成できるということである。
研究者たちは、可能な目標の多様性のため、この主張が実際に真であるかどうかを知らない。そのため、これはしばしば報酬仮説と呼ばれる。
目標に対応する報酬信号を選ぶことが容易な場合もある。チェスをプレイするエージェントの場合、報酬は勝利で+1、引き分けで0、敗北で-1とすることができる。役立つ家庭用ロボットアシスタントの報酬信号をどのように設計するかは、それほど明確ではない。それにもかかわらず、強化学習の研究者が良い報酬信号を設計できた応用例のリストは増えている。
強化学習の大きな成功は、ボードゲームの囲碁においてであった。研究者たちは、囲碁はチェスよりも機械が習得するのがはるかに難しいと考えていた。現在Google DeepMindとなっている会社DeepMindは、強化学習を使用してAlphaGoを作成した。AlphaGoは2016年の5試合で、トップ囲碁プレイヤーの李世ドルを破った。
より最近の例としては、ChatGPTなどのチャットボットをより役立つものにするために強化学習が使用されていることがある。強化学習はまた、チャットボットの推論能力を向上させるためにも使用されている。
強化学習の起源
しかし、これらの成功のどれも1980年代には予見できなかった。その時、BartoとそのPh.D.学生だったSuttonは、強化学習を一般的な問題解決フレームワークとして提案した。彼らは動物心理学だけでなく、システムの行動に影響を与えるためのフィードバックの使用である制御理論と、利用可能な選択肢の範囲から最良の選択を選ぶ方法を研究する数学の分野である最適化からもインスピレーションを得た。彼らは研究コミュニティに時の試練に耐えた数学的基礎を提供した。また、現在フィールドの標準ツールとなっているアルゴリズムも作成した。
分野の先駆者が教科書を書く時間を取るとき、それはその分野にとって稀な利点である。Linus Paulingの「The Nature of the Chemical Bond」やDonald E. Knuthの「The Art of Computer Programming」のような輝かしい例は、数が少ないからこそ記憶に残る。SuttonとBartoの「Reinforcement Learning: An Introduction」は1998年に初めて出版された。第2版は2018年に出版された。彼らの本は研究者世代に影響を与え、75,000回以上引用されている。
強化学習は神経科学にも予期せぬ影響を与えた。神経伝達物質ドーパミンは、人間と動物の報酬駆動型行動において重要な役割を果たしている。研究者たちは、強化学習で開発された特定のアルゴリズムを使用して、人々と動物のドーパミンシステムにおける実験的発見を説明してきた。
BartoとSuttonの基礎的な研究、ビジョン、そして提唱は強化学習の成長を助けてきた。彼らの研究は大規模な研究を促し、実世界のアプリケーションに影響を与え、テクノロジー企業による巨額の投資を引き付けた。強化学習の研究者たちは、彼らの肩の上に立ってさらに先を見ることができるだろうと私は確信している。