讀書會第五週：對抗性技術與可擴展監督

本週資訊

日期：2024 年 2 月 22 日
出席人數：8 人
主題：Adversarial Techniques for Scalable Oversight

本週脈絡

第四週回顧：Scalable oversight 旨在讓人類能監督 AI 系統。一個提案是 Iterated Amplification——反覆將任務分解成更容易評估的子任務。可與「分而治之」的概念呼應。

本週重點：同樣是「如何監督 AI 系統」，但採用對抗性方法：Debate（對輸出做批評）與 Adversarial Training（對輸入做對抗）。

📚 必讀篇目 Required Readings

AI-written critiques help humans notice flaws
AI safety via debate
- 請讀 Section 1、Section 2 開頭（Section 2.1 之前）、Section 3.1
Red Teaming Language Models with Language Models
Robust Feature-Level Adversaries are Interpretability Tools
- 請讀 Section 1 和 Section 5
- NeurIPS 2022 簡報：slideslive

📚 選讀篇目 Optional Readings

High-stakes alignment via adversarial training
- NeurIPS 2022 簡報：slideslive
Takeaways from our robust injury classifier project
Diagnostics for Deep Neural Networks with Automated Copy/Paste Attacks
Debate update: Obfuscated arguments problem
Constitutional AI: Harmlessness from AI Feedback
- 作為本階段 AI safety 旅程的總結性回顧

本週筆記

兩大框架概覽

本週討論兩種幫助人類監督複雜 AI 系統的方法：

Debate framework：使用 AI 批評 AI 的輸出，幫助人類在無法掌握整個任務時提供反饋
Unrestricted adversarial training framework：使用 AI 生成人類可解釋的輸入範例，幫助人類在訓練過程中進行監督

一、Debate Framework

1. OpenAI — AI-written critiques help humans notice flaws

核心發現：

語言模型提出批評可以讓人們更容易發現摘要寫作生成結果的缺陷
較大的語言模型更擅長自我批評
規模對模型批評能力的提升效果比寫作能力更顯著

動機：許多現有的 LLM 對齊工作依賴人類評估作為訓練信號。

挑戰：人類很難評估極困難的任務——例如找出龐大程式碼庫中的所有 bug，或長篇文章中的每一個事實錯誤。

目標：AI 助手應幫助人類對困難任務提供反饋，具備以下功能：

指出缺陷
幫助人類理解發生了什麼
回答人類的問題

方法：比較模型在生成答案、辨別答案品質、批評答案三方面的能力差異。對主題摘要撰寫批評，再用（生成文本, 批評）配對進行監督式學習。

結果 1：即使對人類而言摘要並非特別困難的任務，且模型能力不超越人類，AI 批評已能提供有意義的幫助。

結果 2：AI 對模型生成摘要的輔助效果，取決於模型能否批評自己的輸出。

重要討論：模型有時「知道有問題」卻無法清楚指出（Discriminability, D）≠「能夠正確地點出問題」（Critiquability, C）。換言之，模型在辨別答案品質方面優於自我批評，意味著它們知道某些問題的存在，但無法或不願清楚表達。

2. AI Safety via Debate

核心發現：

將辯論描述為一種使用如 AlphaZero 一樣的 AI 系統，以監督複雜 AI 系統的方法
在辯論遊戲中，說謊比反駁謊言更難——遊戲的最佳策略會讓 agents 產生誠實、一致的訊息

動機：指定複雜目標時，需要人類在訓練中判斷哪些 AI 行為是安全且有用的，但如果任務太複雜，人類便無法直接判斷。

挑戰：自然語言辯論（多個小任務的片段，可回想第四週的 Iterated Amplification）可以處理複雜任務，但「無限制的對話」模型仍遠未達到人類水準，評估本身也很困難。

目標：訓練 agents 進行「辯論遊戲」，讓人類裁判能判斷複雜任務。

The more the truth is debated, the clearer the truth becomes.

方法：將辯論形式化為零和博弈。辯論 agent 的訓練方式類似於 AlphaGo Zero，辯論本身作為 amplification 過程。網路輸出一個發言（立場宣示或論點）；透過 Monte Carlo Tree Search (MCTS) 模擬自我辯論，MCTS 可能產出更好的發言；網路以原始發言為預測標籤、以 amplified 發言為實際標籤進行更新。

實驗設定：

情境：Agent 看到全貌，法官（Judge）看不到
流程：兩個 agent 先各自宣稱圖片的類別，再輪流向法官揭露一個像素
法官：能用 4 或 6 個像素分類圖片的稀疏分類器
角色：Agent A 說謊；Agent B 誠實

結果：誠實的 Agent（Bob）比說謊的 Agent（Alice）更能說服稀疏分類器。論點：誠實是最優策略，被訓練到最優策略的 agent 會變得誠實。

討論：

辯論過程中觀點是否能被轉換，甚至讓 agent 忘記自己的角色（缺乏辯論收斂性）
訓練超人類 AI 使其具有說服力聽起來很危險！誠實（honesty）難以明確定義，可能遭遇兩個模型聯合欺騙（recall Week 1 的 deceptive behavior）以達到最佳獎勵
延伸閱讀：NTU ML 2023 Fall Final 辯論方法——求知式辯論 vs 求勝式辯論

二、Unrestricted Adversarial Training Framework

使用 AI 向人類提供可解釋的範例/特徵（輸入端），幫助人類在訓練過程中進行監督。

The inputs (images, texts) that successfully fool the classifier without confusing humans are referred to as Unrestricted Adversarial Examples.

3. Red Teaming Language Models with Language Models

核心發現：

透過使用語言模型本身產生有害的輸入，可以自動找到對語言模型有害的文字
不只是語言模型，未來可以利用類似機制對其他類型的生成式 AI 系統進行 red teaming，例如 inner misalignment 或 objective robustness 的失敗

動機：生成式語言模型有生成有害文字的風險，即使是微小的風險在實際應用中也無法接受。

挑戰：先前的工作依賴付費人工標注者手動發現失敗案例（Xu et al. 2021 等）。此方法有效但昂貴，且限制了所能發現的失敗案例數量與多樣性。

目標：找到不理想的案例（「red teaming」），包括：

冒犯性語言
資料洩漏（版權或私人資訊）
聯絡資訊（如電話號碼）
分布偏見（如種族歧視）
對話中的傷害（如惡意言論）

方法：

Step 1. 訓練 Red LM（以四種方式）：

Prompt-based (zero-shot) generation (ZS)
Stochastic Few-shot learning (SFS)
Supervised fine-tuning (SL)
Reinforcement learning (RL)

Step 2. 訓練 Red Clf：訓練分類器判斷特定 LM 輸出是否有害。

Step 3. 緩解 Target LLM 的有害行為：

封鎖含有特定詞彙的輸出
移除模型引用的冒犯性訓練資料
在 prompt 中增加期望行為的示例
訓練模型降低原始有害輸出的機率

結果：不同方法在多樣性和引發有害性之間做出不同取捨。

討論：

LM 可以在同一個應用中扮演多個角色——在本論文中同時攻擊和防禦 LM
即使將所有訓練資料設為無冒犯性，仍不能保證 deploy 時對任意輸入都無害（Microsoft Tay 的例子：Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day）
刪除冒犯性資料通常只會讓模型學到更少（負面影響）；更好的做法是在訓練資料中增加輔助特徵來標記冒犯性內容

4. Robust Feature-Level Adversaries are Interpretability Tools

核心發現：

複雜的神經網路模型可以被 Generative Model 生成出來的可解釋特徵愚弄
這樣的攻擊模式也具有可轉移性（transferability），可以從白箱攻擊（White-box attacks）轉移至黑箱攻擊（Black-box attacks）

動機：自然界的某些對抗性刺激是可感知的、可描述的、且具有魯棒性。

挑戰：傳統對抗性樣本不可解釋，因此我們可能不知道哪些對抗性樣本能有效且魯棒地攻擊我們的 ML 模型。

目標：設計能揭示受害網路「容易理解的弱點」的對抗性樣本——即「feature-level」adversarial examples：

對人類而言可解釋（describable）
具有魯棒性，使解釋能夠泛化

方法：Generator + Regularization。採用「unrestricted」對抗範式——攻擊成功的條件是網路的分類與 oracle（如人類）不同。

結果 1：Validating Interpretations with Copy/Paste Attacks——用剪貼攻擊驗證解釋的有效性。

結果 2：Physical-Realizability——能夠遷移到真實世界（physical world）。

重要討論（Diagnostics）：Feature-level adversaries 有助於發現可利用的虛假特徵/類別關聯（Fig. 6）和社會有害偏見（Appendix A.7 Fig. 11）。這種方法比讓人類主導解釋更具有可擴展性，也能防止人類先入為主的偏見影響解釋結果。

總結

兩種幫助人類監督複雜 AI 系統的方法：

Debate framework：使用 AI 批評 AI 的輸出，幫助人類在無法掌握整個任務時提供反饋
Unrestricted adversarial training framework：使用 AI 提供人類可解釋的輸入範例，幫助人類在訓練過程中進行監督

MISC

AI Alignment Course 的課程大綱已更新：

移除 Unrestricted adversarial training framework，並將 Debate framework 合併至 Scalable oversight
新增 Reinforcement learning from human (or AI) feedback（Section 3）

詳見：AI Safety Fundamentals Alignment Course

臨時動議：邀請演講

講者：邱天異（北京大學信息科學技術學院圖靈班）

演講主題：AI Alignment: A Comprehensive Survey

另可參考：alignmentsurvey.com