February 26, 2025 AI SafetyReading GroupMechanistic InterpretabilitySparse AutoencoderCircuits

NTU AI Safety 讀書會：第七週 - 機械可解釋性：打開 AI 的黑盒子

本週深入機械可解釋性（Mechanistic Interpretability）領域，探討電路（Circuits）方法、稀疏自編碼器（Sparse Autoencoder）與多語義性（Polysemanticity）問題，以及可解釋性研究對 AI 安全的潛在價值與批判觀點。

本週主題：機械可解釋性

課程連結：AI Safety Fundamentals - Session 6

機械可解釋性（Mechanistic Interpretability）是一個新興領域，致力於理解訓練好的神經網路內部的推理過程——不只是「AI 輸出了什麼」，而是「AI 為什麼和如何得出這個輸出」。

Anthropic CEO 估計我們目前僅理解 AI 模型運作方式的 3%。

為什麼需要可解釋性？

當代前沿模型可能包含數十億甚至數萬億參數，分布在 100 多層中，形成難以解讀的「黑盒」。理解其內部運作可以：

識別錯誤、缺陷和系統性偏見
檢測欺騙、阿諛奉承或獎勵劫持等不對齊行為
干預模型的內部推理過程，而不只是觀察其行為

核心概念：特徵與電路

神經網路由特徵（Features）組成，這些特徵連接形成電路（Circuits）：

特徵：神經網路編碼的有意義、獨立的概念，通常限定在網路的單一層
電路：特徵群組間的關係，是網路結合低級概念創建更複雜表示的計算方法

Zoom In：電路方法的三個核心主張（Chris Olah et al., 2020）

特徵是神經網路的基本單位：神經元對應於有意義的特徵（曲線檢測器、邊緣檢測器等），可以被研究和理解
特徵通過權重連接形成電路：這些電路展現了網路如何構建複雜的視覺識別能力
普遍性（Universality）：類似的特徵和電路會在不同模型和任務中重複出現

兩種研究範式的對比

	基於激活的方法（前四種）	基於電路的方法（後三種）
關注什麼	神經元對輸入的反應模式	神經元之間的連接和權重
研究視角	黑盒（Black-box）	白盒（White-box）
方法本質	觀察給定輸入時神經元的輸出行為	直接研究神經網路的參數和結構
能否僅用 API	理論上可以	必須訪問內部權重
回答什麼問題	「神經元對什麼有反應？」	「神經元為什麼和如何對這些東西有反應？」

多語義性與疊加（Polysemanticity & Superposition）

問題：一個神經元可以表示多個特徵（多語義性），一個特徵也可以分布在多個神經元上。

原因：神經網路通過「疊加」節省神經元——用 2 個神經元模擬一個 5 維空間，表示 5 個概念。

Anthropic 可解釋性團隊曾訓練一個只有 30 個神經元但需要記住 400 個特徵的小型神經網路，驗證了這個現象。

解決方案：稀疏自編碼器（Sparse Autoencoder）

稀疏自編碼器通過預測真實 AI 的激活值，將多語義神經元分解為單語義特徵：

假設模型有 ~2,000 到 ~100,000 個特徵
每個特徵對應真實神經元的某個方向
特徵是單語義的——每個只代表一個具體概念

Anthropic 近期使用稀疏自編碼器識別了 Claude 3 Sonnet 模型中數百萬個特徵的表示方式。

可解釋性的 19 種影響理論（Neel Nanda, 2022）

以下幾種最值得關注：

審計（Auditing）：檢查模型是否對齊，只在安全的情況下部署
偵測欺騙行為：比完整審計模型的門檻低很多
干預訓練：在訓練早期發現不對齊，在模型足夠強大到能隱藏欺騙之前介入
改善人類反饋：訓練模型不只做對的事，而且出於正確的原因
對齊研究的倍增器：分析模型為何給出不對齊的答案，提供更豐富的實驗數據

批判觀點：可解釋性幾乎沒有用？（Charbel-Raphael Segerie, 2023）

這篇文章對可解釋性研究提出了系統性批評：

無法通過可解釋性檢測欺騙行為：欺騙性對齊的模型可能不會「積極思考」其欺騙行為
最終目標不明確：枚舉安全（Enumerative Safety）策略從一開始就注定失敗
可能總體上有害：提供虛假的控制感，有雙重用途風險
預防比事後解釋更有效：設計上就安全的系統比事後解釋更可行

作者建議將資源轉向：技術治理工作、對抗訓練、預防性安全措施與透明性設計。

本週討論問題

可解釋性研究目前對 AI 安全最有價值的應用是什麼？
如果我們只能讓稀疏自編碼器擴展到與 GPT-4 同等規模，這在實際應用中意味著什麼？
你更傾向於 Neel Nanda 的積極觀點，還是 Segerie 的批判觀點？為什麼？