本文翻譯自 BlueDot Impact Technical AI Safety 課程內容。
AI 是怎麼思考的?
我們一直試圖訓練 AI 使其更安全。我們建立了評估來偵測危險。但這些做法多半是經驗性的:嘗試不同技術、觀察哪些有效,再進一步探索那些有前景的方向。
這是處理複雜系統的一種方式。當 RLHF 意外地效果很好時,我們加倍投入並探索各種變體。就像早期醫學,醫生在還不了解為何有效之前,就發現某些療法有效。
可解釋性代表另一種互補的做法。它試圖理解 AI(更精確地說:神經網路)為何會以某種方式表現,然後用這份理解來設計更好的訓練與評估技術。
機械式可解釋性研究有兩大「陣營」:
- 基礎科學:試圖完全逆向工程這些模型——理解每一層、每一個參數。可以想成像是逐神經元繪製人腦地圖。
- 務實派:聚焦在特定行為。若模型產出有害內容,是哪部分在負責?像是診斷某個症狀,而不是理解整個人類生物學。
資源(35 分鐘)
-
以基礎科學取徑入門、聚焦理解影像模型的可及性介紹。介紹 Olah 等人論文中迴路與特徵(神經網路的建構單元)的概念,以及多義性(每個神經元代表不只一個概念)的概念。
Rational Animations · 2024 · 15 分鐘
-
從「迴路」觀點分析神經網路的概覽,以特徵與連接它們的迴路來解釋神經網路行為,並介紹理解模型的一些工具,如稀疏自編碼器與特徵導向。 更技術性的深入內容見:Zoom In: An Introduction to Circuits
Sarah Hastings-Woodhouse · 2024 · 5 分鐘 · 聽文章
-
請閱讀「訪談精要」。 這是機械式可解釋性領域現況的概覽。更多關於機械式可解釋性有前景方向的細節,可參考 Neel Nanda 的部落格。
Robert Wiblin · 2025 · 5 分鐘
-
這篇文章主張,機械式可解釋性(透過將個別神經元對應到行為來理解 AI 的十年追求)從根本上是失敗的,因為神經網路是複雜系統,無數微弱互動產生無法化約成簡單機制的湧現行為。文中以稀疏自編碼器、特徵視覺化等知名技術一再失敗為據,建議我們應在更高抽象層次研究 AI,而非試圖逆向工程每一條迴路,挑戰了關於如何讓 AI 系統更安全的一項核心假設。
Dan Hendrycks and Laura Hiscott · 2025 · 10 分鐘
選讀資源
-
Farr et al. · 2025
-
這篇部落格說明神經網路中疊加(superposition)的挑戰,以及人們如何嘗試用稀疏自編碼器(SAE)解決。這些主題的更技術性深入內容見:
Scott Alexander · 2023 · 25 分鐘
-
對機械式可解釋性變革理論的深思批評,主張它對提升安全的影響可能不如普遍認為的那麼大。閱讀時可與前述文章對機械式可解釋性的樂觀理由對照。
Charbel-Raphael Segerie · 2023 · 20 分鐘
-
Google DeepMind 的機械式可解釋性領銜研究者 Neel Nanda 說明,儘管我們期待,可解釋性技術仍無法可靠地揪出具欺騙性的 AI——主張我們需要多種不完美的防禦,而非依賴單一「銀彈」解法。
Neel Nanda · 2025 · 10 分鐘
-
Conjecture 執行長說明,將機械式可解釋性用於 AI 安全有兩大障礙:AGI 認知是互動的,需要對環境與認知/學習的模型才能理解;(多數) 機械式可解釋性會帶來能力提升而非監督,因為體制並未建立、也缺乏抵擋使用能力增益的誘因。
Connor Leahy · 2023 · 15 分鐘
可解釋性的實務
本節你會概覽研究者用來理解模型的一些工具,並看幾個案例研究:我們如何把對模型的理解用在改進訓練技術與評估。
大致上,研究者把這份理解用在:
- 直接干預(較遠大的目標):像手術般修改模型:關掉暴力、改道欺騙、放大誠實。
- 間接應用(當前現實):用這些洞見改進其他安全技術。理解哪些訓練資料會產生暴力輸出,有助我們更好過濾;看清模型如何隱藏推理,有助我們設計更好的評估。
你會發現實驗很多。工具與技術會隨我們發現什麼、模型如何發展而流行或退流行。
資源(1 小時)
-
探針分類器是什麼?能幫助我們理解 AI 模型內部發生什麼嗎?
Sarah Hastings-Woodhouse · 2025 · 5 分鐘
-
說明思維鏈如何用於理解模型,並論證我們為何應保持其忠實與可理解。
Korbak et al. · 2025 · 15 分鐘
-
這篇文章介紹以模型生物來理解失準系統如何運作,以及現有安全技術對它們的效果。
Hubinger et al. · 2023 · 20 分鐘
-
示範我們如何用探針等工具的理解來改進模型評估。
Obeso et al. · 2025 · 5 分鐘
-
示範我們如何用稀疏自編碼器等可解釋性技術做對齊審計——調查模型是否具有不想要的目標。
Marks et al. · 2025 · 15 分鐘
練習
理解一項可解釋性技術
從資源(必讀或選讀)中選一項技術深入分析,然後用簡單英文(不要術語!)回答下列問題:
- 目標:這項技術試圖揭露什麼?
- 機制:這項技術一步步是怎麼運作的?
- 證據:這項技術產生了哪些具體發現?
- 應用:這些發現如何被用來改進訓練或評估?(若有)
- 穩健性:這項技術的一項關鍵限制或失敗模式是什麼?
建議閱讀 45 分鐘、撰寫 15 分鐘。
更多選讀資源
-
ARENA 課程的這部分適合技術背景較強的人。你可能需要先讀 ARENA 較早內容,尤其是 第 0 章,以設定環境並理解更多程式碼。這是難度較高的練習,即使對有經驗的 ML 工程師,我們預期也至少要一天。你可以在同梯、#find-collaborators 或 #discussion Slack 頻道找一起做的夥伴。
Callum McDougall · 2024
-
擴展單義性:從 Claude 3 Sonnet 擷取可解釋特徵
這篇長文探討如何擴展「邁向單義性」一文中的技術,並將其應用於 Claude 3 Sonnet。
Adly Templeton and Tom Conerly et al. · 2024
-
基礎科學取徑的範例。使用歸因圖作為工具,部分追蹤模型將特定輸入提示轉成輸出回應時所經的中間步驟鏈。
Lindsey et al. · 2025
-
基礎科學取徑的範例。此研究發現 LLM 推理中的某些句子(稱為思維錨點)對輸出的影響特別大。
Bogdan et al. · 2025