本文翻譯自 BlueDot Impact Technical AI Safety 課程內容。
評估:AI 能變得安全,但它真的會安全運作嗎?
我們已經嘗試訓練更安全的模型,但我們要如何知道是否真的成功了?
在 AI 評估中,我們通常希望能偵測兩大類事情:
- Capabilities(能力):模型能不能做到某件事?
這類評估是為了找出 AI 能力的上限,通常會透過給模型一系列任務,觀察它能多穩定地完成。例如:MMLU、ARC-AGI。 - Propensities(傾向):模型會不會去做某件事?
這類評估是為了了解模型的行為傾向,通常會把模型放進不同情境中,觀察它更常展現哪些行為。例如:TruthfulQA、scheming evals。
AI 公司通常會在三個階段進行模型評估:
- 訓練過程中(During training)
在模型訓練時持續監測新出現的行為與能力。這也是介入成本最低的時候,可以調整訓練資料、修改 reward signal,甚至完全停止訓練。 - 部署前(Before deployment)
紅隊(red teams)會嘗試攻擊或破解模型,同時檢查是否達到危險能力門檻,並做出是否部署(go / no-go)的決策。 - 部署後(Post-deployment)
持續監控模型的實際使用情況,並標記可疑或危險的行為。
閱讀資源(約 40 分鐘)
We need a Science of Evals
這篇文章提出了一系列開放問題,作者稱之為「評估科學(Science of Evals)」。 Marius Hobbhahn · 2024 · 15 min
AI models can be dangerous before public deployment
METR 的研究顯示,強大的 AI 模型在公開發布之前就可能造成危害,例如模型被竊取、內部濫用,或在開發過程中追求非預期目標。因此,如果安全評估只在部署前才進行,可能會錯過真正危險開始出現的重要時機。 METR · 2025 · 5 min
When AI Chooses Harm Over Failure
這是一個用來壓力測試 AI 行為邊界的評估示範。該實驗重現了 Anthropic 關於 Anthropic’s research on agentic misalignment 的研究結果,即使沒有被指示要造成傷害,在面臨被替換的情境時,幾乎所有測試模型都會自行選擇 勒索(blackmail)。 CivAI · 2025 · 5 min
Self-preservation or Instruction Ambiguity? Examining the Causes of Shutdown Resistance
當 Palisade Research 發現 OpenAI 的 o3 模型有 79% 的機率會破壞關閉機制時,Google DeepMind 的研究者重新檢視這個實驗。他們透過調整評估設定,發現只要更清楚地說明指令優先順序,就能完全消除模型的抵抗行為。這顯示評估方法與 prompt 設計可能會大幅影響我們對 AI 行為的判斷。
Senthooran Rajamanoharan and Neel Nanda · 2025 · 15 min
練習
評估危險能力
請從以下 危險能力 中選擇一項:
- Scheming(策略性陰謀行為)
- Manipulation(操縱)
- Cyberattack uplift(提升網路攻擊能力)
- Biorisk uplift(提升生物風險能力)
接著,你可以使用下方的 optional resources,用**簡單英文(不要使用專業術語)**回答以下問題:
Explain step-by-step
逐步說明:我們有哪些不同方法來評估這種能力?
Describe a technical failure mode
描述一種技術上的失敗模式:這種評估方法有多可靠?可能在哪裡失效?
Brainstorm fixes
腦力激盪可能的解法:有哪些技術補丁(technical patches)可以改善?哪些問題可能是根本無法修復的?
建議的時間分配是:
- 45 分鐘閱讀
- 15 分鐘寫作
AI 公司如何測試安全性?
每一家 AI 公司都聲稱他們的模型是安全的。但「安全」對他們來說到底代表什麼?他們實際測試了哪些風險?又有哪些沒有測試?這些評估的嚴謹程度如何? 在本節中,你將透過檢視以下幾種資料,了解 AI 公司實際是如何評估其模型的:
-
Risk management frameworks(風險管理框架) : 公司對於何時應暫停模型開發,或何時需要實施額外安全措施所做出的承諾。
-
System cards(系統卡) : 記錄針對特定模型實際進行了哪些評估的技術文件。
-
Red team reports(紅隊測試報告) :由對抗性測試(adversarial testing)所得到的結果。
你會發現,不同公司之間採取的做法差異非常大。有些公司會針對 生物武器風險 進行非常深入的測試,而有些公司幾乎沒有提及這個問題。有些公司會使用 外部評估者(external evaluators),而有些則主要依賴 內部團隊。
理解這些差異對於找出 AI 安全上的缺口(safety gaps) 非常重要。
請選擇 一家公司,並檢視它是如何評估你在上一個練習中選擇的 危險能力(dangerous capability)。
學習資源
AI Lab Watch
這個儀表板提供了對前沿 AI 公司安全實踐的整體概覽。 Zach Stein-Perlman
Responsible Scaling Policies
METR 解釋了怎麼樣的 Responsible Scaling Policy(RSP) 才算是一個良好的安全政策。
METR · 2023
Option 1: Anthropic
Resources
Anthropic’s Responsible Scaling Policy
Anthropic · 2026
System Card: Claude Opus 4.5
請快速瀏覽(skim)Section 7。 Anthropic · 2025
練習
安全測試
請針對你選擇的公司與危險能力,回答以下問題:
- Limits(能力限制) : 哪些關於危險能力的具體觀察結果,會顯示模型已經(或很可能)不再安全,應該停止進一步擴展能力?
- Protections(保護措施) : 目前有哪些保護措施是必要的,以控制這種危險能力可能帶來的災難性風險?
- Evaluation(評估機制) : 有哪些程序可以及時發現危險能力正在接近限制的早期警訊?
- Response(回應機制) : 如果危險能力超過安全限制,而保護措施又無法迅速改善,AI 開發者是否準備好暫停進一步提升模型能力,直到安全措施足夠完善?他們是否會對潛在危險模型採取足夠謹慎的處理方式?
- Accountability(問責與監督) : AI 開發者如何確保這些承諾確實被執行?如何讓重要利害關係人能夠驗證這些措施是否真的發生(或發現沒有發生)?是否存在第三方提出批評與檢視的機會?又如何避免整個安全框架在缺乏透明度或過於倉促的情況下被修改?
建議時間分配:
- 45 分鐘閱讀
- 15 分鐘寫作
Option 2: OpenAI
Resources
OpenAI’s Preparedness Framework
OpenAI · 2025
GPT-5 System Card
請快速瀏覽(skim)Section 5。
OpenAI · 2025
練習
安全測試
請針對你選擇的公司與危險能力,回答以下問題:
- Limits(能力限制) : 哪些關於危險能力的具體觀察結果,會顯示模型已經(或很可能)不再安全,應該停止進一步擴展能力?
- Protections(保護措施) : 目前有哪些保護措施是必要的,以控制這種危險能力可能帶來的災難性風險?
- Evaluation(評估機制) : 有哪些程序可以及時發現危險能力正在接近限制的早期警訊?
- Response(回應機制) : 如果危險能力超過安全限制,而保護措施又無法迅速改善,AI 開發者是否準備好暫停進一步提升模型能力,直到安全措施足夠完善?他們是否會對潛在危險模型採取足夠謹慎的處理方式?
- Accountability(問責與監督) : AI 開發者如何確保這些承諾確實被執行?如何讓重要利害關係人能夠驗證這些措施是否真的發生(或發現沒有發生)?是否存在第三方提出批評與檢視的機會?又如何避免整個安全框架在缺乏透明度或過於倉促的情況下被修改?
建議時間分配
- 45 分鐘閱讀
- 15 分鐘寫作
Option 3: Google DeepMind
Resources
Google DeepMind’s Frontier Safety Framework
Google DeepMind · 2025
Gemini 3 Pro Model Card
Google DeepMind · 2025
練習
安全測試
請針對你選擇的公司與危險能力,回答以下問題:
- Limits(能力限制) : 哪些關於危險能力的具體觀察結果,會顯示模型已經(或很可能)不再安全,應該停止進一步擴展能力?
- Protections(保護措施) : 目前有哪些保護措施是必要的,以控制這種危險能力可能帶來的災難性風險?
- Evaluation(評估機制) : 有哪些程序可以及時發現危險能力正在接近限制的早期警訊?
- Response(回應機制) : 如果危險能力超過安全限制,而保護措施又無法迅速改善,AI 開發者是否準備好暫停進一步提升模型能力,直到安全措施足夠完善?他們是否會對潛在危險模型採取足夠謹慎的處理方式?
- Accountability(問責與監督) : AI 開發者如何確保這些承諾確實被執行?如何讓重要利害關係人能夠驗證這些措施是否真的發生(或發現沒有發生)?是否存在第三方提出批評與檢視的機會?又如何避免整個安全框架在缺乏透明度或過於倉促的情況下被修改?
建議時間分配
- 45 分鐘閱讀
- 15 分鐘寫作
Option 4: Meta
Resources
Meta’s Frontier AI Framework
Meta · 2025
Llama Guard 4 Model Card
Meta · 2025
你也可以在這裡找到 Meta 的其他 model cards。
練習
安全測試
請針對你選擇的公司與危險能力,回答以下問題:
- Limits(能力限制) : 哪些關於危險能力的具體觀察結果,會顯示模型已經(或很可能)不再安全,應該停止進一步擴展能力?
- Protections(保護措施) : 目前有哪些保護措施是必要的,以控制這種危險能力可能帶來的災難性風險?
- Evaluation(評估機制) : 有哪些程序可以及時發現危險能力正在接近限制的早期警訊?
- Response(回應機制) : 如果危險能力超過安全限制,而保護措施又無法迅速改善,AI 開發者是否準備好暫停進一步提升模型能力,直到安全措施足夠完善?他們是否會對潛在危險模型採取足夠謹慎的處理方式?
- Accountability(問責與監督) : AI 開發者如何確保這些承諾確實被執行?如何讓重要利害關係人能夠驗證這些措施是否真的發生(或發現沒有發生)?是否存在第三方提出批評與檢視的機會?又如何避免整個安全框架在缺乏透明度或過於倉促的情況下被修改?
建議時間分配
- 45 分鐘閱讀
- 15 分鐘寫作