AI Alignment (AIアライメント)

近似最適近似強化学習 (2002)

(Approximately optimal approximate reinforcement learning)

代理目的関数の理論的基盤となる保守的方策反復 (CPI) を導入した。

論文はこちら

APRIL: 能動的な選好学習に基づく強化学習 (2012)

(April: Active preference learning-based reinforcement learning)

好みから報酬関数を学習し、その後、強化学習を用いてそれを最適化するというアプローチを提唱した。
『専門家の好みを利用して近似的な方策リターンを学習することで、エージェントが直接的な方策探索を実現できる･･･』

論文はこちら

超知能と人間の利益の整合：技術研究アジェンダ (2014)

(Aligning Superintelligence with Human Interests:A Technical Research Agenda )

FAI(Friendly AI)という目標を達成するための研究分野にAI Alignment という用語を定着させた。

『人工知能の進歩がこのまま続けば、AIシステムは最終的に一般的な推論能力において人間を超えるだろう。「事実上あらゆる分野で人間の最高の脳よりも賢い」という意味で「超知能」を持つシステムは、人類に計り知れない影響を与える可能性がある（Bostrom 2014）。人間の知能によって環境を制御するためのツールや戦略を開発できるようになったように、超知能システムは、制御を行うための独自のツールや戦略を開発できる可能性が高い（Muehlhauser and Salamon 2012）。こうした可能性を考慮すると、人間の一般的な知能レベルを超えるAIシステム、あるいはそのようなシステムの構築を容易にするAIシステムの開発には、慎重を期すことが不可欠である･･･』

論文はこちら

信頼領域ポリシーの最適化 (2015)

(Trust Region Policy Optimization)

『単調な改善が保証されたポリシー最適化のための反復手順について述べる。理論的に正当化された手順に複数の近似を行うことで、信頼領域ポリシー最適化 (TRPO: Trust Region Policy Optimization) と呼ばれる実用的なアルゴリズムを開発した。』

論文はこちら
 要約はこちら

協力的逆強化学習 (2016)

(Cooperative Inverse Reinforcement Learning)

エージェントが相互作用を通じて人間の目標を学習する問題を形式的にモデル化した。

『自律システムが人間に役立ち、不当なリスクをもたらさないためには、その行動が人間にとっての価値の最大化に寄与するように、環境内の人間の価値観と自らの価値観を整合させる必要がある。本稿では、この価値観整合問題の正式な定義として、協力的逆強化学習（CIRL）を提案する･･･』

論文はこちら

人間の好みからの深層強化学習 (2017)

(Deep reinforcement learning from human preferences)

人間からのフィードバックによる強化学習という概念を導入した基礎的な論文。
人間のフィードバックが手作業で設計された報酬関数よりも優れた報酬形を提供できる可能性を示唆しており,従来の報酬設計が非現実的である実世界の課題に強化学習を適用する新たな可能性を開いた。

論文はこちら
 要約はこちら

近似ポリシー最適化アルゴリズム (2017)

(Proximal Policy Optimization Algorithms)

TRPO (Trust Region Policy Optimization)の複雑さを改善しつつ、TRPOと同等かそれ以上の性能を達成でき、実装がよりシンプルで汎用的な手法としてPPOを提案した。

論文はこちら
 要約はこちら

人間からのフィードバックによる要約学習 (2020)

(Learning to summarize from human feedback)

人間の好みを満たすようにモデルを直接訓練することが劇的に優れた結果を生み出すことを示している。

論文はこちら
 要約はこちら

アライメントの実験室としての一般言語アシスタント (2021)

(A general language assistant as a laboratory for alignment)

有用性、正直さ、無害さに焦点を当てたアライメント評価のフレームワーク

論文はこちら

人間からのフィードバックによる指示追従言語モデルの訓練 (2022)

(Training language models to follow instructions with human feedback)

多段階の人間からのフィードバックによる強化学習（RLHF:Reinforcement Learning from Human Feedback）パイプラインを確立した

論文はこちら
 要約はこちら

ダイレクト選好最適化：あなたの言語モデルは実は報酬モデルである (2023)

(Direct preference optimization: Your language model is secretly a reward model)

人間からのフィードバックによる強化学習（RLHF）の複雑さを回避し、大規模言語モデルを人間の好みに合わせてファインチューニングする手法(DPO)を導入した。

論文はこちら
 要約はこちら

トップに戻る