技術性 AI 安全課程：第五週 - 假設傷害會發生

本文翻譯自 BlueDot Impact Technical AI Safety 課程內容。

假設傷害會發生

到目前為止，我們試過訓練模型更安全、建立評估來偵測危險，以及理解 AI 如何思考。

但每種技術都有失敗模式。模型學會欺騙評估。危險能力意外湧現。惡意行為者找到新越獄方式。邊界案例漏網。

本節談的是最後的技術防線。在我們已經訓練出一個 AI 之後，如何把它的傷害降到最低？

資源：AI 控制（50 分鐘）

危險地使用 AI，但安全地？

這支易懂的影片介紹 AI 控制——即使模型可能刻意欺騙，也能降低先進 AI 系統風險的設定。

Robert Miles · 2024 · 30 分鐘
AI 控制入門

本資源概覽 AI 控制，包括受控／非受控監測、危險行動需經人類批准、任務分解等技術。

Sarah Hastings-Woodhouse · 2025 · 5 分鐘 · 聽文章
AI 安全中的輸入／輸出過濾是什麼？

這篇文章說明輸入／輸出過濾如何攔截漏過訓練防護的有害內容，Anthropic 將越獄率從 86% 降到 5% 以下，但決心強的攻擊者仍可能突破即使最好的防禦。

Sarah Hastings-Woodhouse · 2025 · 5 分鐘
憲法式分類器：防禦通用越獄

這是輸入／輸出過濾分類器的一種，使用與憲法 AI 類似的技術。這類分類器在推論時執行，有時因使用算力而成本較高。若想進一步了解此方法的成本效益，見此處。

Sharma et al. · 2025 · 10 分鐘

現在要針對真實威脅，對我們介紹過的防禦進行壓力測試。

在本節中，你將選擇一條威脅路徑「選項」進一步調查。 然後你會建構一條詳細的「殺傷鏈」——威脅如何一步步展開的拆解。你會標出 AI 需要哪些具體能力、對應我們的防禦，並找出關鍵缺口在哪裡。

以下是我們可能擔心的行為者類型，就他們有能力及／或動機用 AI 對人類造成傷害而言。

他們可能如何造成災難性傷害？

AI 助長的政變：小團體如何用 AI 奪權

請閱讀第 4 節「AI 助長政變的具體路徑」。

Tom Davidson, Lukas Finnveden, Rose Hadshar · 2025 · 15 分鐘
漸進式失權摘要

Aniket Chakravorty, Dewi Erwan · 2025 · 15 分鐘
AI 如何助長災難性疫情

Will Saunter · 2025 · 15 分鐘
AI 如何助長關鍵基礎設施崩潰

Li-Lian Ang · 2025 · 5 分鐘

根據你目前的理解，你認為哪條威脅路徑最值得擔心？

然後用以下模板寫一句「威脅情境」：

[行為者] 具備 [能力] 與 [動機]，透過 [攻擊路徑] 攻擊 [資產]，以達成 [目標]。

殺傷鏈把「威脅情境」拆成執行階段。它追蹤攻擊者實際上會如何一步步進行，例如透過偵察、投遞、利用、持久化、達成目標。

你的情境描述的是可能發生什麼，殺傷鏈描述的則是實際上會如何展開。這樣我們才能找出防禦者可以介入的 choke point。

根據你的情境，使用此模板完成本練習。

列出你的威脅需要的 3–5 項具體技術能力或行為。具體說明 AI 需要能做到什麼。

例如：自我複製、跨實例的目標持久、長期規劃與協調、資源取得（算力、金錢）、生物武器知識／合成

哪一項能力／行為最重要？若我們只阻止這一項，整個威脅是否就會瓦解？

回顧你在課程中所學，判斷我們可以如何：