February 12, 2025 AI SafetyReading GroupAdversarial RobustnessMachine UnlearningAI Control

NTU AI Safety 讀書會：第六週 - 對抗性稳健、機器遺忘與 AI 控制

本週探討如何防止對齊後的 AI 系統被過度優化或產生欺騙行為，介紹三種互補方法：對抗性稳健（Adversarial Robustness）、機器遺忘（Machine Unlearning）與 AI 控制（AI Control）。

本週主題：防止對齊系統被攻破

本週聚焦於 AI 對齊領域的一個核心大哉問：我們如何防止監督方法被 AI 系統攻略（gamed）？

即使經過 RLHF 或 CAI 訓練的模型，也可能找到獎勵模型的漏洞，或在被監督時表現出欺騙行為。本週介紹三種應對方法：

::: callout Session 3 & 4 的 RLXF 與可擴展性監督聚焦於從人類（通常透過獎勵模型）取得反饋信號。本週（Session 5）則問：如何防止微調後的 AI 系統過度優化或產生欺騙行為？ :::

三種方法：

對抗性稳健：理解並直接防禦對抗性輸入
機器遺忘：從模型中移除特定能力（例如欺騙行為）
AI 控制：在 AI 系統周圍建立架構，以更好地偵測和攔截欺騙

必讀篇目

1. 對抗性稳健（Adversarial Robustness）

核心概念

對抗攻擊是指：在原始圖片上加入人眼幾乎看不出的雜訊，卻讓模型做出完全不同的判斷。

FGSM（Fast Gradient Sign Method）：

X_adv = X + ε · sign(∇_X L(X, Y))

透過沿著最大化損失的方向前進，讓模型容易錯誤分類。

攻擊類型：

Untargeted（白盒）：讓模型分類結果錯誤，但不指定成哪類
Targeted（黑盒）：讓模型將輸入誤分類為特定標籤；攻擊者訓練替代模型後利用對抗樣本的可遷移性（Transferability）

防禦方式：

Heuristic Defense：在訓練時加入對抗樣本（對抗訓練），但無理論保證
Certified Defense：透過加入隨機雜訊提供數學保證，確保模型在一定範圍內對所有對抗擾動都是穩健的

2. 機器遺忘（Machine Unlearning）

為什麼微調不夠？

GPT-4 只需要 10 個範例就能變得「不安全」。微調只是改變模型行為，而不會讓模型「真正忘記」學過的東西，因為 LLM 的核心機制主要由預訓練決定，微調只是套了一層新規則。

應該遺忘的三類知識

事實（Facts）：如何製造生化武器、如何製造假證件
傾向（Tendencies）：操縱、欺騙、散播假資訊的能力
技能（Skills）：駭客技術

RMU（Representation Misdirection for Unlearning）

傳統方法修改損失函數，RMU 直接修改模型的表示（隱藏層激活值）：

Forget Loss：將危險資料的激活值扭曲成無意義的方向
Retain Loss：維持良性資料的激活值不變

實驗結果：

WMDP-Bio（生物安全）：從 ~60% 降至 ~30%（隨機猜測為 25%）
WMDP-Cyber（網路安全）：從 ~40% 降至 ~20%
MMLU（通用知識）：從 ~58% 僅降至 ~55-57%（副作用極小）

待解問題： RMU 無法阻止透過微調讓已遺忘的知識再被學回來。

3. AI 控制（AI Control）

研究問題

如果模型本身故意想要破壞安全措施，現有的安全技術還能有效嗎？

實驗設置

任務：解決 5,000 個 APPS 程式設計題
不可信任的強模型（U）：GPT-4（可能故意埋入後門）
可信任的弱模型（T）：GPT-3.5
人類審查預算：僅能審查 2% 的提交解答

各協議的安全性與有用性比較

協議	有用性	安全性
只使用可信任模型	2%	100%
預先審計	100%	15%
可信任監控	97%	62%
可信任監控 + 20% 退回	83%	92%
可信任編輯 (20%)	94%	92%

結論： 可信任編輯（Trusted Editing）與可信任監控加退回機制能在 90% 以上的時間防止災難，同時維持大部分有用性。

本週討論問題

對抗性稳健、機器遺忘與 AI 控制，如何各自為對齊問題作出貢獻？
在開源模型的情境下，這三種方法各自面臨哪些額外挑戰？
什麼是 FGSM，對抗訓練又如何防禦它？