NTU AI Safety 讀書會：第四週 - RLHF 與憲法式 AI

本週主題：如何讓 AI 學習人類價值觀？

上週我們了解了 AI 對齊問題的本質與難度。本週我們要探討目前最主流的對齊技術：從人類反饋強化學習（RLHF），以及其更進階的版本——憲法式 AI（Constitutional AI）。

by Rational Animations (2024) · 影片 · 15 分鐘

這支易懂的影片以高層次介紹 RLHF 的技術與實際概覽，並以一個 RLHF 出錯的案例研究作說明。

by Nathan Lambert et al. (2022) · Blog · 30 分鐘

這篇技術文章解釋 RLHF 的動機，並詳細說明 RLHF 如何實際應用於神經網路訓練。

閱讀時思考：技術實作中哪些部分對應到前一個影片中的「價值教練」與「一致性教練」？

by Yuntao Bai and Jared Kaplan, Anthropic (2022) · 論文 · 60 分鐘

這篇論文解釋 Anthropic 的憲法式 AI 方法——本質上是 RLHF 的延伸，但將人類示範者與人類評估者替換為 AI。

論文涵蓋：

若時間有限，建議優先閱讀 1.2、3.1、3.4、4.1、6.1、6.2 節。

by Stephen Casper and Xander Davies (2023) · 論文 · 30 分鐘（讀第 3 節）

這篇論文整理了改進 RLHF 技術的多個開放問題。閱讀時思考：這些問題背後的技術因素是什麼？

1. 收集示範資料 → 訓練監督學習基礎模型
2. 收集人類偏好資料 → 訓練獎勵模型
3. 用強化學習（PPO）優化語言模型，最大化獎勵模型的分數

憲法式 AI 的關鍵創新是用 AI 替代人類進行兩個步驟：