本文翻譯自 BlueDot Impact Technical AI Safety 課程內容。

Making AI go well Source: https://bluedot.org/courses/technical-ai-safety/1/1 Translator: Christine Hsieh

讓AI好好的發展!

AGI (通用人工智慧) 策略課程(AGI strategy course) 重點在於：我們如何讓人工智慧進行良好的發展？

在課程中，你可以知道自己在怎麼樣的未來方向發展，並理解影響全局的關鍵動態：

AI發展的驅動因素 (Drivers of AI progress)：算力（compute、資料（data）、演算法（algorithms）。
可能的威脅 (Threat pathways)：權力過度集中、權力逐漸削弱、災難疫情、關鍵基礎設施崩潰。
讓AI好好發展的計畫 (Plans for making AI go well)：政府掌控AGI，將控制權交給已對齊的人類價值的超級智慧，建立防禦機制並推動 AI 能力的分散化。
建構多層防禦體系 (Layers of defences to build)：防止 AI 採取危險行動→ 限制危險的AI能力 → 抵擋危險的AI行為

本課程的重點在於，我們實際上正在建立什麼樣的 AI 系統，以及要怎麼去建立，你將獲得技術的基礎知識，進而了解需要什麼來讓使人工智慧系統更安全，以及為什麼這件事會如此具有挑戰性。

在接下來的課程中，你將會：

分析為什麼「確保AI安全」在技術上具有挑戰性
評估目前的AI 安全技術：哪些有效，哪些無效，哪些距離現實還有差距
建立你自己的「攻擊鏈 (Kill Chain)」: 展示防禦系統可能如何被突破
找出你最有機會發揮影響力的介入點
最終產出一份可以申請補助、並開始實際執行的行動計畫!

這門課程不包含哪些內容？以下主題同樣很重要，但會在其他課程中深入探討：

AI 政策 (AI policy) 細節：儘管您將獲得有效人工智慧治理的技術基礎。
算力治理 (Compute governance)：認證和追蹤硬體資訊值得獨立深入探討。
人工智慧安全 (AI security)：例如防止模型被盜或逃脫
機器學習基礎 (ML Basics)：如有需要，請先完成BlueDot的AI基礎課程 (AI foundations)。

那我們就從這個問題開始:「我們能夠怎麼建立安全的 AI呢？」

成功的發展可能會是什麼樣子？

我們可以將目前關於如何建立安全 AI 的策略，大致分成以下三大類。這其實是非常粗略的簡化，但認為它抓住了主要幾個「陣營」的核心觀點。

1. 慢慢且安全地建造它 這個策略認為，考量到先進 AI 可能帶來的巨大好處，例如終結貧困、治癒疾病，以及解決人類最重大的挑戰，我們在道德上有責任去發展它。支持這個策略的人相信，我們可以發展出讓 AI 與人類價值對齊並加以控制的技術。因此，如果放棄這些潛在好處，反而是不負責任的。

這一派認為，我們應該謹慎推進 AI 發展，並建立強而有力的安全保障與協調機制，把 AI 發展看成像核能或藥品研發一樣的領域—在部署之前必須先滿足嚴格的安全標準。這個陣營的人可能更看好那些能提供真正安全保證的技術（例如可解釋性 interpretability 與形式化驗證 formal verification），而不是一些雖然快速但比較表面的解決方案（例如輸出過濾或行為式微調）。

但這個策略有一個前提—必須確保沒有人會先衝得太快。

即便如此，支持者仍認為，要達成「受控發展」所需要的全球協調，比起無限期暫停 AI 發展來說更為現實。這一派提出的一些重要方案包括，前沿 AI 公司之間合作共享安全研究、將 AI 發展變成類似政府主導的大型科學計畫，例如「CERN for AI」或是 carefully bootstrapping alignment

2. 接受競賽，在邊界上盡力推動安全

這個策略認為，AGI 的發展是不可避免且無法阻止的。既然無論如何都會有人建造它，那麼「好的行動者（good actors）」應該盡力讓 AI 在盡可能長的時間內保持安全。

這種策略可能會表現在以下幾種方式：

務實安全（Pragmatic safety） 快速部署許多不完美但實用的安全技術，並廣泛分享便宜且可靠的方法，讓整個 AI 領域逐漸朝更安全的方向發展。
贏得競賽以取得控制權（Win to control） 在 AI 能力上取得決定性領先，然後利用這個領先優勢讓 AI 變得更安全，例如：自動化 AI 對齊研究(automating alignment research) 或是阻止其他人建立不安全的 AI 系統，這兩種路徑都假設，全球協調來放慢 AI 發展是不現實的。因此，他們認為「在競爭中同時盡量提升安全性」是相對沒那麼糟的選項。

批評者則提出一些疑問，領先優勢可能只是暫時的，其他人可能透過間諜活動、平行研究、或公開研究成果快速追上。競賽本身會增加事故風險，並讓人習慣為了速度而犧牲安全，誰來決定哪些行動者是「好人」？把如此巨大的權力集中在任何一方手中是否明智？

這一派的人可能更看好那些可以快速部署的安全技術，即使它們不完美。他們寧可現在先部署「夠好」的安全措施，也不願等到未來才部署理想方案。代表性的提案包括: 安全地自動化對齊研究（AI for AI safety）或是優先加速防禦型技術，而不是攻擊型技術（例如 def/acc）

3. 不要建造它 這個策略主張停止開發人工超級智慧，因為它可能使人類面臨滅絕或大規模苦難的風險。他們也認為，一旦 AI 強大到某個程度，人類將無法控制它。支持者之間對於細節仍有不同看法，例如：什麼能力門檻應該觸發暫停、應該採取什麼手段來執行。這些提議的範圍包括，限制 AI 可以自主執行的行動、限制 AI 晶片供應。

然而，真正停止 AI 發展並不容易。

AI 的進步來自算力（compute）、資料（data）、演算法（algorithms），即使今天就停止所有晶片製造，AI 仍然會進步。人們仍然會持續發現更有效率的演算法、更好的訓練方法、更聰明地利用現有硬體。 任何真正有意義的「停止」都需要明確定義我們到底要停止什麼？（新的訓練？部署？研究？）、如何衡量危險能力、如何在全球範圍內長期執行。

這一派的人通常更支持那些能夠保證安全的技術，而不只是降低風險的技術。代表性的提案包括，暫停前沿 AI 的發展，直到我們能確保安全性以及無限期的 AI 發展禁令（moratorium）

註：
隨著新的安全技術不斷出現、全球協調的可行性變化，以及 AI 能力持續進步，AI 的整體局勢正在快速演變。因此，定期重新檢視自己的立場是很重要的。 許多人也認為，這些策略未必是彼此競爭的選項，而更像是不同階段的策略。例如，先暫停發展，在這段時間內建立更成熟的安全技術，之後再以受控的方式繼續發展 AI。或是，先在競賽中取得領先，再利用這個優勢去推動並強制全球的 AI 安全標準。

建立安全的 AI 為何如此困難？

為什麼我們不能直接建造安全的 AI？

那些正在打造最強大 AI 系統的人，往往描繪出一個人類能享有極大繁榮與資源充足的未來願景。例如，Anthropic 的 CEO 曾談到利用 AI 終結貧窮與疾病；而 OpenAI 的願景則是打造「對全人類都有益的 AGI (beneficial for all humanity)」。這些目標無疑都非常宏大且理想。

然而，即使假設這些研究者與公司確實懷有良好的意圖，我們仍然可能很難安全地建立 AI，主要原因有三個：

1. 我們正在實驗自己尚未完全理解的系統 AI 並不是被精確工程設計出來使其按照某些明確規則行為的系統。相反地，許多能力是從 在大量資料上訓練的巨大神經網路中「湧現」（emerge） 出來的。因此，模型會發展出我們從未特別訓練過的能力、它們會展現出我們難以解釋的行為，當數十億人類與 AI 代理在現實世界互動時，每個人都在追求自己的目標，也可能發現各種創新的漏洞利用方式，在這種複雜的互動環境下，很容易產生未被預期、甚至有害的結果。

2. 我們設定的目標可能存在未被察覺的缺陷 在 2024 年，研究機構 Palisade Research 給 AI 模型一個簡單的目標：「擊敗 Stockfish（世界最強的西洋棋引擎）。」當 o1-preview 發現自己即將輸棋時，它竟然修改了遊戲的系統檔案，將棋子移動到一個明顯有利的位置。

它的推理是，目標是「贏」，而不一定要公平地贏。

這揭示了一個問題，我們無法告訴 AI「我們想要什麼」，因為人類的目標本身往往是模糊且依情境而定的。我們的指令通常沒有包含許多隱含的社會規則，例如「贏」意味著要公平競爭、「幫助他人」不應包含提供危險資訊、「誠實」有時也會因為善意或體貼而存在例外。研究者將這個問題稱為獎勵錯誤指定（reward misspecification）

3. AI 可能以我們未預期的方式追求目標 在 2024 年，Anthropic 對 Claude 進行了一項實驗。研究人員要求 Claude 回答有害問題，並計畫將這些回答用於重新訓練，使模型變得更容易產生有害內容。Claude 並沒有直接照做，相反地，它假裝遵循指示，同時暗中試圖保留自己原本的價值觀。

Claude 並沒有被特別訓練去「自我保護」，但它推理出自我保存(self-preservation)可能有助於讓自己持續保持與人類價值一致。AI 系統也可能推論出累積權力(accumulating power)、避免被關閉(preventing shutdown)、抵抗被修改(resisting modification)。可能是達成目標的有效策略，即使人類從未打算讓它們這樣思考。

研究者將這種現象稱為錯誤泛化目標（goal misgeneralisation）

如果我們希望讓 AI 變得更安全，我們不只需要知道這些問題存在，還需要理解為什麼這些問題在本質上如此難以解決。

補充資料

一些思考小練習

你希望的未來是什麼？

要解決一個問題，首先必須清楚知道你希望達成什麼樣的目標。這個練習的目的是幫助你釐清：AI 在未來世界中應該扮演什麼角色。在整個課程中，你會評估各種讓 AI 更安全的不同方法。而在評估這些方法時，你需要思考：它們正在把我們帶往哪一種未來。這個練習可以幫助你為之後的思考建立一個基礎。

你可以思考以下問題：

在 10 年後，AI 能做到什麼？
誰在控制 AI？誰在引導它的發展？
你最擔心的 AI 風險 是什麼？我們應該如何防範？
哪些 AI 帶來的好處 是最重要、最值得保護的？
什麼情況會讓你覺得「我們成功了」或「我們失敗了」？

為什麼安全的 AI 如此難以建立？

要解決問題，首先要真正理解問題本身。

這個 writing-to-learn（透過寫作來學習） 的練習，目的是幫助你反思自己對於
建立安全 AI 的技術挑戰的理解。

請注意：

不要使用太多專業術語
不要使用艱深或華麗的詞彙
請用簡單的英文來解釋你的想法

請花 約 30 分鐘 回答: 為什麼從技術角度來看，建立安全的 AI 是困難的？

可以如何開始？

直接開始寫就好。這個練習比較像是把思考寫在紙上，而不是寫一篇正式的文章。 因此不需要擔心自己是否「正確」、不需要有完美的結構。如果你卡住了，可以試試:

使用 語音轉文字（speech-to-text），直接說出你的想法
或與 大型語言模型（LLM）對話來探索你的想法

這個練習的目標是探索想法，而不是追求完美。

你可以思考的問題

當 數百萬個 AI agent 彼此互動（而不只是與人類互動）時，會發生什麼？
我們應該讓 AI 對齊 誰的意圖或價值觀？
如果不同的利害關係人（stakeholders）希望 AI 對齊不同的價值觀，你會如何處理？
你能想到某些 在某些情境下是好行為、但在其他情境下卻可能有害的人類行為嗎？ 你要如何教 AI 分辨？
有沒有一件你每天都在做的事情，其實很難完整地描述給 AI？
有哪些 只有在 AI 大規模部署時才會出現的安全問題，在測試階段可能完全看不出來？
如果讓 AI 更安全會使它 更慢或能力變弱，那麼誰會願意使用更安全的版本？

你也可以：

瀏覽之前提供的補充資料
或自己做一些研究，補足你理解上的空缺。

最關鍵的技術挑戰

根據你剛才寫下與思考的內容，請找出：

建立安全 AI 的「最關鍵」技術挑戰。

這應該是那種如果我們沒有解決它，其他所有努力都沒有意義的問題。

請用以下格式回答：

最關鍵的挑戰是… 用 一句清楚的話說明這個挑戰。
為什麼它比其他問題更重要? 說明：

為什麼如果這個問題沒有解決 其他問題即使解決也沒有意義？
為什麼它是整個問題的 瓶頸（bottleneck）？

如果我們解決了這個問題會發生什麼? 假設明天我們突然找到一個完美解決方案，解決了這「唯一一個」問題。 那麼有哪些事情會變得可能？有哪些其他問題會變得更容易解決？或甚至變得不再重要？

請花 約 15 分鐘 完成這個部分。

以上都沒有「正確答案」，把這個練習當作你開始思考 AI 安全問題的起點。

技術性 AI 安全課程：第一週 - AI 面臨的技術挑戰