kzmssk

エージェントと環境の相互作用

強化学習(Reinforcement Learning; RL)はエージェント(Agent)と呼ばれるシステムがゲームや現実世界のような外部環境(Environment)に対して、行動(Action)で働きかけたことで得られる意思決定の良さである報酬(Reward)をできるだけ大きくするようシステム自身を更新するパラダイムだ。

エージェントは環境の状態(State)を受け、行動を選択する主体だ。行動を選択する確率を方策(Policy)と呼ぶ。これはビデオゲームプレイで言えばプレイヤーに相当し、この例で言えば環境はゲーム、行動はボタン操作、報酬はスコアということになる。

エピソード

一連のエージェントと環境の相互作用をエピソードと呼ぶ。1エピソードの具体的な流れはこうだ:

初期状態のサンプリング: 環境で決められた確率にしたがって初期状態を決める。ゲームのリセット。
行動のサンプリング：（初期）状態から方策 \(\pi\)で行動を決める
状態遷移: 行動で状態遷移が起こる
行動サンプリングと状態遷移を繰り返し、最終時刻 \(T\) まで進める

下の添え字は時刻をあらわしている。省略されているがエピソードを通じて各時刻にエージェントは報酬を受け取っており、それを総和した累積報酬(Return)の期待値を最大化する方策を見つけるのがRLの目的だ。方策が機械学習モデルで実装される場合、エピソードのデータを集めて方策のパラメーターを更新することになる。つまり、エピソード収集＝探索と学習を繰り返すことで方策のパラメーターをより良くしていく。

また、エピソードの構造を規定するのにマルコフ過程(Markov Decision Process; MDP)がよく使われ、状態 \( s_t \), 行動集合 \( a_t \), 状態遷移 \( p(s_{t+1} \mid s_t, a_t) \), 報酬を計算する関数 \( R(s, a)\)、割引率 \(\gamma\) を使って説明される。割引率はエピソードの長さが無限大である場合に都合が悪くなるので導入されるハイパーパラメータで、将来の報酬をどの程度重要視するかを意味している。

バリエーション

実際にはここまでの定義にはバリエーションがある。方策や状態遷移は一般には確率モデルだが、決定論的であることもある。拡張として、エージェントは状態を部分的にしか知り得ないという設定がある。ゲームの例で言えば、プレイヤーが知りうるのはゲーム画面だったり自分の手札で、ゲームの内部の状態や相手の手札は知り得ない。このような場合は部分観測マルコフ過程(Partially Observable MDP; POMDP)という。POMDPでは状態 \( s_t \) からマスキングなどの何かしらの関数を通してエージェントが知り得る観測（Observation）が加わる。また、エージェントが複数存在する場合もある。多人数ゲームはその典型的な例だろう。複数エージェントはマルチエージェント強化学習（Multi Agent RL）と呼ばれたりする。

基本的にはエージェントは環境の状態遷移と報酬関数に関して無知だが、状態遷移を別途モデリングする場合はモデルベース強化学習という。報酬関数をモデリングする場合は逆強化学習(Inverse RL; IRL)という。IRLは主に過去のエピソードから報酬関数を見つけ出すことで、効率的な探索を目指す。

現実的な問題へ適用するときの問題点

様々な問題をRLとして捉えることができるが、現実的な問題として捉えるには様々な壁がある。たとえば、環境を現実世界にした場合に、エピソードのデータを集めることは大きなコストになる。よく指摘されるのはロボットのエージェントが試行錯誤するときに物を壊したり、データ収集の人的・金銭コストだ。また現実世界の（真の）状態は知り得ないため、本質的にはPOMDPになるが、MDPよりも問題が複雑であり解くのが難しい。そのため物理シミュレーションで代用することが多い（Sim2Real）。ただし、摩擦や柔軟物、流体と構造物の相互作用など物理シミュレーションの精度には限界があり、現実との乖離がおきる。シミュレーションに摂動を加えるDomain Randomizationなどが提案されている。

シミュレーションでは初期状態のサンプリング、つまりリセットが簡単にできるが、現実の物理環境やすでに稼働しているシステムの場合は困難か、そもそもできない場合もある。リセットを許さないReset-freeな問題設定を扱った研究がされている。

報酬関数の存在も障壁になりうる。報酬関数を実装するためには環境の振る舞いを把握できる必要があるし、エージェントの振る舞いの良さを適切に評価する方法は事前に存在することは稀だ。しかもRLの学習は報酬関数の設計にとても依存する性質をもつため、シミュレーション環境下でも入念な設計が必要な場合がある。対して、エピソード終了時に想定したタスクが達成できたか、失敗したかの\(1, -1\)で与えれば報酬関数の実装は比較的簡易になるが、この場合には成功が難しいタスクの場合や、1つのエピソードが長い場合にどの状態における行動が良かったのかを決める（Credit Assignmentと呼ばれる）のが難しい。

トピックス強化学習: [2] 問題設定

エージェントと環境の相互作用

エピソード

バリエーション

現実的な問題へ適用するときの問題点

関連分野