kzmssk

昨今では深層ニューラルネットワークのアプリケーションが注目を集め、さまざまなサービスに組み込まれつつある。特に、ChatGPTを皮切りにした言語モデル（LLM）によるコードや文章の生成、意思決定は社会に大きな影響を与えている。

言語モデルは、自然言語やコード、ときには画像のトークン列を入力として、次に行うべきことやコマンドを生成する意思決定システムとしても使うことができる。実際にClaude3.7がポケモンをプレイできたりする。よく学習されたLLMは高度な知識を持ち、適切な計画を立てることができる。

強化学習（Reinforcement Learning; RL）は、機械学習における意思決定システムを作るための代表的なパラダイムである。RLは、ゲームやシミュレーションなどの外部システムと相互作用しながら、トライ＆エラーを通じて学習する。深層学習が登場する以前から研究されてきたが、Deep Q-Network以後、深層学習と組み合わせた深層強化学習（Deep Reinforcement Learning; DRL）の分野が発展し、さまざまな研究が行われている。LLMのPre-Trainingのように大規模データセットを使った学習とは異なり、RLは試行錯誤を通じてデータを生成する。つまり、自律的に賢くなるシステムである。

RLの応用例は色々とある。たとえば自動運転やロボットの行動決定を行うニューラルネットワークの学習がある。ゲームの自動プレイでは、StarCraft IIのAlphaStarや、囲碁・将棋のMuZeroなどが有名である。また、LLMの追加学習手法としても利用され、Reinforcement Learning from Human Feedback（RLHF）として知られている。

この「トピックス強化学習」では、RLの基本的な説明を交えながら、個人的に気になっているトピックについて書いてみようと思う。厳密な定義や証明よりも、これからの可能性や他の手法との関わりなどをメインに扱う予定。

より厳密な定義や入門書を読んでみたければ、以下の本が参考になるかもしれない：

Reinforcement Learning: An Introduction：有名な教科書。著者名から「Sutton本」とも呼ばれる。
強化学習：厳密な定義や公理について知りたいならおすすめ
これからの強化学習：少し古くなってしまったが具体的な事例も含まれており、入門書としておすすめ

トッピクス強化学習: [1] はじめに