讀書會第六週：可解釋性

本週資訊

日期：2024 年 2 月 29 日
出席人數：7 人
主題：Interpretability

概覽

Interpretability：研究 AI 系統為何做出特定行為，並嘗試以人類可理解的方式加以描述。

Mechanistic Interpretability：從學習到的權重對神經網路進行逆向工程，還原為人類可理解的演算法

代表研究：Locating and Editing Factual Associations in GPT

Developmental Interpretability：研究神經網路中的**相變（phase transitions）**及其與內部結構的關係

📚 必讀篇目 Required Readings

📚 選讀篇目 Optional Readings

本週筆記

一、機械可解釋性（Mechanistic Interpretability）

定義：從學習到的權重對神經網路進行逆向工程，還原為人類可理解的演算法。類比於將已編譯的程式二進位檔逆向還原為原始程式碼。（ref）

二、Locating and Editing Factual Associations in GPT

研究動機

Locating facts：進一步理解模型內部學到的知識
Editing facts：未來可作為修改模型中錯誤資訊的方法

核心結論

事實關聯可以沿三個維度定位：

MLP 模組的參數
中間層的某個範圍（middle layers）
在處理主語（subject）最後一個 token 時

單一事實關聯可以透過對單個 MLP 模組進行小幅的 rank-one 修改來改變。我們可以透過測試對同一事實的其他措辭的泛化能力，來區分「知識層面的改變」與「語言層面的表面改變」。

方法一：定位事實（Causal Tracing）

利用因果追蹤（Causal Tracing）方法定位事實存儲的位置，通過比較乾淨運行（clean run）、損毀運行（corrupted run）和恢復運行（restored run）之間的差異，識別出對特定事實至關重要的模型組件。

方法二：編輯事實（ROME — Rank-One Model Editing）

將 MLP 模組視為簡單的 key-value store
ROME 使用 MLP 權重的 rank-one 修改，直接寫入一組新的 key-value pair
可以在不影響其他知識的情況下精確更新單一事實

三、發展可解釋性（Developmental Interpretability）

Developmental Interpretability 的目標是建立工具，用於偵測、定位和解釋神經網路中的相變（phase transitions）。

當神經網路形成某種結構時，會留下可解讀的發展痕跡（developmental traces），讓我們可以藉此理解結構形成的位置與方式。研究工具之一：Singular Learning Theory (SLT)（奇異學習理論）。

為什麼要研究相變？

1. 相變確實存在（在訓練過程中和/或在模型規模擴大時）

典型範例：

In-context Learning and Induction Heads：在訓練的特定階段，induction heads 突然形成，導致 in-context learning 能力的急劇提升。
Toy Models of Superposition（Transformer Circuits）：
- Superposition：模型能表示的特徵數量多於其維度數量（類比：同一個詞「bank」可以表示「河岸」或「銀行」）
- Phase change：一個特徵在訓練中有三種可能命運：(1) 根本沒學到；(2) 學到了，以 superposition 的方式表示；(3) 用一個專屬維度表示。這三種結果之間的轉換看起來是突然的——可能存在某種相變。

2. 相變容易被發現

3. 相變是尋找普遍性（universality）的好候選

假設：我們不認為訓練好的神經網路中所有知識和計算都通過相變出現，但我們的工作假設是：有足夠多的知識這樣出現，使相變成為可解釋性研究的有效組織原則。驗證這個假設是我們眼前的優先工作。

相變與對齊安全

在一個相中，事物緩慢/連續地變化。相變恰好是這種連續性崩潰的點——變化是突然的，外推迅速失效。因此，相變正是對安全而言策略上至關重要的偵測點。（引述自 johnswentworth 的評論）

討論問題

你認為相變存在嗎？
你認為 developmental interpretability 行得通嗎？對對齊有幫助嗎？