本週主題:機械可解釋性
課程連結:AI Safety Fundamentals - Session 6
機械可解釋性(Mechanistic Interpretability)是一個新興領域,致力於理解訓練好的神經網路內部的推理過程——不只是「AI 輸出了什麼」,而是「AI 為什麼和如何得出這個輸出」。
Anthropic CEO 估計我們目前僅理解 AI 模型運作方式的 3%。
為什麼需要可解釋性?
當代前沿模型可能包含數十億甚至數萬億參數,分布在 100 多層中,形成難以解讀的「黑盒」。理解其內部運作可以:
- 識別錯誤、缺陷和系統性偏見
- 檢測欺騙、阿諛奉承或獎勵劫持等不對齊行為
- 干預模型的內部推理過程,而不只是觀察其行為
核心概念:特徵與電路
神經網路由特徵(Features)組成,這些特徵連接形成電路(Circuits):
- 特徵:神經網路編碼的有意義、獨立的概念,通常限定在網路的單一層
- 電路:特徵群組間的關係,是網路結合低級概念創建更複雜表示的計算方法
Zoom In:電路方法的三個核心主張(Chris Olah et al., 2020)
- 特徵是神經網路的基本單位:神經元對應於有意義的特徵(曲線檢測器、邊緣檢測器等),可以被研究和理解
- 特徵通過權重連接形成電路:這些電路展現了網路如何構建複雜的視覺識別能力
- 普遍性(Universality):類似的特徵和電路會在不同模型和任務中重複出現
兩種研究範式的對比
| 基於激活的方法(前四種) | 基於電路的方法(後三種) | |
|---|---|---|
| 關注什麼 | 神經元對輸入的反應模式 | 神經元之間的連接和權重 |
| 研究視角 | 黑盒(Black-box) | 白盒(White-box) |
| 方法本質 | 觀察給定輸入時神經元的輸出行為 | 直接研究神經網路的參數和結構 |
| 能否僅用 API | 理論上可以 | 必須訪問內部權重 |
| 回答什麼問題 | 「神經元對什麼有反應?」 | 「神經元為什麼和如何對這些東西有反應?」 |
多語義性與疊加(Polysemanticity & Superposition)
問題:一個神經元可以表示多個特徵(多語義性),一個特徵也可以分布在多個神經元上。
原因:神經網路通過「疊加」節省神經元——用 2 個神經元模擬一個 5 維空間,表示 5 個概念。
Anthropic 可解釋性團隊曾訓練一個只有 30 個神經元但需要記住 400 個特徵的小型神經網路,驗證了這個現象。
解決方案:稀疏自編碼器(Sparse Autoencoder)
稀疏自編碼器通過預測真實 AI 的激活值,將多語義神經元分解為單語義特徵:
- 假設模型有 ~2,000 到 ~100,000 個特徵
- 每個特徵對應真實神經元的某個方向
- 特徵是單語義的——每個只代表一個具體概念
Anthropic 近期使用稀疏自編碼器識別了 Claude 3 Sonnet 模型中數百萬個特徵的表示方式。
可解釋性的 19 種影響理論(Neel Nanda, 2022)
以下幾種最值得關注:
- 審計(Auditing):檢查模型是否對齊,只在安全的情況下部署
- 偵測欺騙行為:比完整審計模型的門檻低很多
- 干預訓練:在訓練早期發現不對齊,在模型足夠強大到能隱藏欺騙之前介入
- 改善人類反饋:訓練模型不只做對的事,而且出於正確的原因
- 對齊研究的倍增器:分析模型為何給出不對齊的答案,提供更豐富的實驗數據
批判觀點:可解釋性幾乎沒有用?(Charbel-Raphael Segerie, 2023)
這篇文章對可解釋性研究提出了系統性批評:
- 無法通過可解釋性檢測欺騙行為:欺騙性對齊的模型可能不會「積極思考」其欺騙行為
- 最終目標不明確:枚舉安全(Enumerative Safety)策略從一開始就注定失敗
- 可能總體上有害:提供虛假的控制感,有雙重用途風險
- 預防比事後解釋更有效:設計上就安全的系統比事後解釋更可行
作者建議將資源轉向:技術治理工作、對抗訓練、預防性安全措施與透明性設計。
本週討論問題
- 可解釋性研究目前對 AI 安全最有價值的應用是什麼?
- 如果我們只能讓稀疏自編碼器擴展到與 GPT-4 同等規模,這在實際應用中意味著什麼?
- 你更傾向於 Neel Nanda 的積極觀點,還是 Segerie 的批判觀點?為什麼?