代理目的関数の理論的基盤となる保守的方策反復 (CPI) を導入した。
好みから報酬関数を学習し、その後、強化学習を用いてそれを最適化するというアプローチを提唱した。
『専門家の好みを利用して近似的な方策リターンを学習することで、エージェントが直接的な方策探索を実現できる・・・』
FAI(Friendly AI)という目標を達成するための研究分野にAI Alignment という用語を定着させた。
『人工知能の進歩がこのまま続けば、AIシステムは最終的に一般的な推論能力において人間を超えるだろう。「事実上あらゆる分野で人間の最高の脳よりも賢い」という意味で「超知能」を持つシステムは、人類に計り知れない影響を与える可能性がある(Bostrom 2014)。人間の知能によって環境を制御するためのツールや戦略を開発できるようになったように、超知能システムは、制御を行うための独自のツールや戦略を開発できる可能性が高い(Muehlhauser and Salamon 2012)。こうした可能性を考慮すると、人間の一般的な知能レベルを超えるAIシステム、あるいはそのようなシステムの構築を容易にするAIシステムの開発には、慎重を期すことが不可欠である・・・』
『単調な改善が保証されたポリシー最適化のための反復手順について述べる。理論的に正当化された手順に複数の近似を行うことで、信頼領域ポリシー最適化 (TRPO: Trust Region Policy Optimization) と呼ばれる実用的なアルゴリズムを開発した。』
エージェントが相互作用を通じて人間の目標を学習する問題を形式的にモデル化した。
『自律システムが人間に役立ち、不当なリスクをもたらさないためには、その行動が人間にとっての価値の最大化に寄与するように、環境内の人間の価値観と自らの価値観を整合させる必要がある。本稿では、この価値観整合問題の正式な定義として、協力的逆強化学習(CIRL)を提案する・・・』
人間からのフィードバックによる強化学習という概念を導入した基礎的な論文。
人間のフィードバックが手作業で設計された報酬関数よりも優れた報酬形を提供できる可能性を示唆しており,従来の報酬設計が非現実的である実世界の課題に強化学習を適用する新たな可能性を開いた。
TRPO (Trust Region Policy Optimization)の複雑さを改善しつつ、TRPOと同等かそれ以上の性能を達成でき、実装がよりシンプルで汎用的な手法としてPPOを提案した。
人間の好みを満たすようにモデルを直接訓練することが劇的に優れた結果を生み出すことを示している。
有用性、正直さ、無害さに焦点を当てたアライメント評価のフレームワーク
多段階の人間からのフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)パイプラインを確立した
人間からのフィードバックによる強化学習(RLHF)の複雑さを回避し、大規模言語モデルを人間の好みに合わせてファインチューニングする手法(DPO)を導入した。