← Blog

NTU AI Safety 讀書會:第七週 - 機械可解釋性:打開 AI 的黑盒子

本週深入機械可解釋性(Mechanistic Interpretability)領域,探討電路(Circuits)方法、稀疏自編碼器(Sparse Autoencoder)與多語義性(Polysemanticity)問題,以及可解釋性研究對 AI 安全的潛在價值與批判觀點。

本週主題:機械可解釋性

課程連結:AI Safety Fundamentals - Session 6

機械可解釋性(Mechanistic Interpretability)是一個新興領域,致力於理解訓練好的神經網路內部的推理過程——不只是「AI 輸出了什麼」,而是「AI 為什麼和如何得出這個輸出」。

Anthropic CEO 估計我們目前僅理解 AI 模型運作方式的 3%


為什麼需要可解釋性?

當代前沿模型可能包含數十億甚至數萬億參數,分布在 100 多層中,形成難以解讀的「黑盒」。理解其內部運作可以:

  • 識別錯誤、缺陷和系統性偏見
  • 檢測欺騙、阿諛奉承或獎勵劫持等不對齊行為
  • 干預模型的內部推理過程,而不只是觀察其行為

核心概念:特徵與電路

神經網路由特徵(Features)組成,這些特徵連接形成電路(Circuits)

  • 特徵:神經網路編碼的有意義、獨立的概念,通常限定在網路的單一層
  • 電路:特徵群組間的關係,是網路結合低級概念創建更複雜表示的計算方法

Zoom In:電路方法的三個核心主張(Chris Olah et al., 2020)

  1. 特徵是神經網路的基本單位:神經元對應於有意義的特徵(曲線檢測器、邊緣檢測器等),可以被研究和理解
  2. 特徵通過權重連接形成電路:這些電路展現了網路如何構建複雜的視覺識別能力
  3. 普遍性(Universality):類似的特徵和電路會在不同模型和任務中重複出現

兩種研究範式的對比

基於激活的方法(前四種)基於電路的方法(後三種)
關注什麼神經元對輸入的反應模式神經元之間的連接和權重
研究視角黑盒(Black-box)白盒(White-box)
方法本質觀察給定輸入時神經元的輸出行為直接研究神經網路的參數和結構
能否僅用 API理論上可以必須訪問內部權重
回答什麼問題「神經元對什麼有反應?」「神經元為什麼和如何對這些東西有反應?」

多語義性與疊加(Polysemanticity & Superposition)

問題:一個神經元可以表示多個特徵(多語義性),一個特徵也可以分布在多個神經元上。

原因:神經網路通過「疊加」節省神經元——用 2 個神經元模擬一個 5 維空間,表示 5 個概念。

Anthropic 可解釋性團隊曾訓練一個只有 30 個神經元但需要記住 400 個特徵的小型神經網路,驗證了這個現象。

解決方案:稀疏自編碼器(Sparse Autoencoder)

稀疏自編碼器通過預測真實 AI 的激活值,將多語義神經元分解為單語義特徵

  • 假設模型有 ~2,000 到 ~100,000 個特徵
  • 每個特徵對應真實神經元的某個方向
  • 特徵是單語義的——每個只代表一個具體概念

Anthropic 近期使用稀疏自編碼器識別了 Claude 3 Sonnet 模型中數百萬個特徵的表示方式。


可解釋性的 19 種影響理論(Neel Nanda, 2022)

以下幾種最值得關注:

  • 審計(Auditing):檢查模型是否對齊,只在安全的情況下部署
  • 偵測欺騙行為:比完整審計模型的門檻低很多
  • 干預訓練:在訓練早期發現不對齊,在模型足夠強大到能隱藏欺騙之前介入
  • 改善人類反饋:訓練模型不只做對的事,而且出於正確的原因
  • 對齊研究的倍增器:分析模型為何給出不對齊的答案,提供更豐富的實驗數據

批判觀點:可解釋性幾乎沒有用?(Charbel-Raphael Segerie, 2023)

這篇文章對可解釋性研究提出了系統性批評:

  1. 無法通過可解釋性檢測欺騙行為:欺騙性對齊的模型可能不會「積極思考」其欺騙行為
  2. 最終目標不明確:枚舉安全(Enumerative Safety)策略從一開始就注定失敗
  3. 可能總體上有害:提供虛假的控制感,有雙重用途風險
  4. 預防比事後解釋更有效:設計上就安全的系統比事後解釋更可行

作者建議將資源轉向:技術治理工作、對抗訓練、預防性安全措施與透明性設計。


本週討論問題

  1. 可解釋性研究目前對 AI 安全最有價值的應用是什麼?
  2. 如果我們只能讓稀疏自編碼器擴展到與 GPT-4 同等規模,這在實際應用中意味著什麼?
  3. 你更傾向於 Neel Nanda 的積極觀點,還是 Segerie 的批判觀點?為什麼?