← Blog

技術性 AI 安全課程:第四週 - AI 是怎麼思考的?

本週課程探討機械式可解釋性(Mechanistic Interpretability):嘗試逆向工程 AI 模型以理解其內部運作,就像神經科學家研究大腦一樣。

本文翻譯自 BlueDot Impact Technical AI Safety 課程內容。

AI 是怎麼思考的?

我們一直試圖訓練 AI 使其更安全。我們建立了評估來偵測危險。但這些做法多半是經驗性的:嘗試不同技術、觀察哪些有效,再進一步探索那些有前景的方向。

這是處理複雜系統的一種方式。當 RLHF 意外地效果很好時,我們加倍投入並探索各種變體。就像早期醫學,醫生在還不了解為何有效之前,就發現某些療法有效。

可解釋性代表另一種互補的做法。它試圖理解 AI(更精確地說:神經網路)為何會以某種方式表現,然後用這份理解來設計更好的訓練與評估技術。

機械式可解釋性研究有兩大「陣營」:

  • 基礎科學:試圖完全逆向工程這些模型——理解每一層、每一個參數。可以想成像是逐神經元繪製人腦地圖。
  • 務實派:聚焦在特定行為。若模型產出有害內容,是哪部分在負責?像是診斷某個症狀,而不是理解整個人類生物學。

資源(35 分鐘)

  • 神經網路到底學到了什麼?探索 AI 模型的大腦

    以基礎科學取徑入門、聚焦理解影像模型的可及性介紹。介紹 Olah 等人論文中迴路與特徵(神經網路的建構單元)的概念,以及多義性(每個神經元代表不只一個概念)的概念。

    Rational Animations · 2024 · 15 分鐘

  • 機械式可解釋性入門

    從「迴路」觀點分析神經網路的概覽,以特徵與連接它們的迴路來解釋神經網路行為,並介紹理解模型的一些工具,如稀疏自編碼器與特徵導向。 更技術性的深入內容見:Zoom In: An Introduction to Circuits

    Sarah Hastings-Woodhouse · 2024 · 5 分鐘 · 聽文章

  • Neel Nanda 談解讀 AI 心智的競賽

    請閱讀「訪談精要」。 這是機械式可解釋性領域現況的概覽。更多關於機械式可解釋性有前景方向的細節,可參考 Neel Nanda 的部落格

    Robert Wiblin · 2025 · 5 分鐘

  • 對機械式 AI 可解釋性的誤導性追求

    這篇文章主張,機械式可解釋性(透過將個別神經元對應到行為來理解 AI 的十年追求)從根本上是失敗的,因為神經網路是複雜系統,無數微弱互動產生無法化約成簡單機制的湧現行為。文中以稀疏自編碼器、特徵視覺化等知名技術一再失敗為據,建議我們應在更高抽象層次研究 AI,而非試圖逆向工程每一條迴路,挑戰了關於如何讓 AI 系統更安全的一項核心假設。

    Dan Hendrycks and Laura Hiscott · 2025 · 10 分鐘

選讀資源

  • MoSSAIC: 機制之後的 AI 安全

    Farr et al. · 2025

  • 讓我們試著理解 AI 的單義性

    這篇部落格說明神經網路中疊加(superposition)的挑戰,以及人們如何嘗試用稀疏自編碼器(SAE)解決。這些主題的更技術性深入內容見:

    Scott Alexander · 2023 · 25 分鐘

  • 反對幾乎每一種可解釋性影響理論

    對機械式可解釋性變革理論的深思批評,主張它對提升安全的影響可能不如普遍認為的那麼大。閱讀時可與前述文章對機械式可解釋性的樂觀理由對照。

    Charbel-Raphael Segerie · 2023 · 20 分鐘

  • 可解釋性無法可靠地發現具欺騙性的 AI

    Google DeepMind 的機械式可解釋性領銜研究者 Neel Nanda 說明,儘管我們期待,可解釋性技術仍無法可靠地揪出具欺騙性的 AI——主張我們需要多種不完美的防禦,而非依賴單一「銀彈」解法。

    Neel Nanda · 2025 · 10 分鐘

  • AGI 安全中機械式可解釋性的障礙

    Conjecture 執行長說明,將機械式可解釋性用於 AI 安全有兩大障礙:AGI 認知是互動的,需要對環境與認知/學習的模型才能理解;(多數) 機械式可解釋性會帶來能力提升而非監督,因為體制並未建立、也缺乏抵擋使用能力增益的誘因。

    Connor Leahy · 2023 · 15 分鐘


可解釋性的實務

本節你會概覽研究者用來理解模型的一些工具,並看幾個案例研究:我們如何把對模型的理解用在改進訓練技術與評估。

大致上,研究者把這份理解用在:

  • 直接干預(較遠大的目標):像手術般修改模型:關掉暴力、改道欺騙、放大誠實。
  • 間接應用(當前現實):用這些洞見改進其他安全技術。理解哪些訓練資料會產生暴力輸出,有助我們更好過濾;看清模型如何隱藏推理,有助我們設計更好的評估。

你會發現實驗很多。工具與技術會隨我們發現什麼、模型如何發展而流行或退流行。

資源(1 小時)

練習

理解一項可解釋性技術

從資源(必讀或選讀)中選一項技術深入分析,然後用簡單英文(不要術語!)回答下列問題:

  • 目標:這項技術試圖揭露什麼?
  • 機制:這項技術一步步是怎麼運作的?
  • 證據:這項技術產生了哪些具體發現?
  • 應用:這些發現如何被用來改進訓練或評估?(若有)
  • 穩健性:這項技術的一項關鍵限制或失敗模式是什麼?

建議閱讀 45 分鐘、撰寫 15 分鐘。

更多選讀資源