強化学習(RL)の問題では、1つの状態に対して必ずしも1つの行動が最適であるとは限らない。原理的には、報酬和の期待値を最大化する方策は複数存在しうる。また、最適な方策や価値関数が求められなくとも、複数の「良い」関数を組み合わせることで、より良い意思決定を行えることがある。これは特に、探索時に多様なデータを集める上で効果的な場合もある。
方策 \( \pi(a|s) \)や価値 \( V(s), Q(s, a) \)の入力に変数を加えることで、生成モデルのように扱うアプローチがある。Universal Value Function Approximator (UVFA) は、価値関数ネットワークの入力にタスク(エピソードのゴール)を表す変数( g ) を加えている。Hindsight Experience Replay は、方策の入力にそのエピソードの最終状態をゴールとして加えている。エージェント視点では、与えられるゴールは未来を先読みした情報、すなわち Hindsight となり、同じ状態からでも複数の行動分岐を持つような多様な方策を表現できる。Random Latent Exploration では、ゴールを一様分布やガウス分布のようなサンプリングしやすい分布から決定し、探索の促進に利用している。また、Hierarchical Actor-Critic は、Hindsight を高レベルな方策の行動として捉えた階層型 RL を提案している。
Hindsight は未来の不確実性による影響を軽減する効果があり、Counterfactual Credit Assignment では、行動とは独立しつつ報酬和に関する情報であるような Hindsight を用いることで、環境ダイナミクス由来の不確実性を軽減している。Evolutionary Policy Optimization は、加える変数自体を遺伝的アルゴリズムで更新することで方策の多様性を確保し、学習の効率化を図っている。
複数の方策ネットワークを用意する方法もある。このようなエージェント集団を最適化する際には、すべてのエージェントが特定の方策パターンに収束してしまう恐れがある。Population Based RL は、エージェントの行動埋め込みベクトルのカーネルを要素とする行列を用いて多様性を評価し、それを損失関数に加えている。多様性を測る指標は様々あり、ニューラルネットワークモデルを合成する モデルマージ においては Quality Diversity などが用いられている。
Behavior Cloning (BC) のようなオフライン RL では、データセットが複数の方策(エキスパート)によって作成されることがよくある。離散行動における BC の損失として多く使われる Cross Entropy は、エキスパート方策と学習対象の方策の KL 距離を最小化することに相当する。しかし、KL 距離は Mode-Seeking、つまり確率が高いピーク領域に集中した分布を獲得しやすい性質を持つ。Pointwise Mutual Information Weighted Behavioral Cloning は、状態、行動、そして潜在的なスタイル(エキスパート)間の相互情報量に基づいた重み付けを損失に加えることを提案している。
LoRA は、ニューラルネットワークに追加パラメータを導入し、安定的かつ効率的に追加学習を行う手法だが、この追加パラメータを置き換えることで複数の方策を作成できる。Learning-to-Modulate は、モデルの大部分のパラメータを一度の事前学習で固定し、LoRA で学習されるパラメータを複数プールしておき、状態列に応じて選択することで、破滅的忘却の問題にアプローチしている。
方策を多様化するには、多様なデータを収集することに加え、そこから得られた知識を継続的に方策へ反映できなければならない。ニューラルネットワークは、学習によって過去に学習した内容を忘却してしまう(破滅的忘却)傾向があり、継続的な学習を苦手としている。RL 独自の問題として、方策の多様性が失われると、探索で得られるデータも偏ってしまい、それを学習することでさらに多様性が失われる、という負の連鎖も起こりうる。こうした課題に対処することも今後重要になるかもしれない。