本文翻譯自 BlueDot Impact Technical AI Safety 課程內容。
你正站在 AI 安全技術旅程的起點。
這門課為你整理了 AI 安全技術的全貌:讓 AI 更安全背後的主要挑戰、現有的安全技術,以及它們的不足之處。
你已經開始培養一些研究品味——也就是判斷哪些 AI 安全技術領域值得投入、以及為什麼的能力。據我們估計,全職投入讓 AI 系統更安全的人不到 2,000 人,這個領域需要具備 高能動性 的人——願意在艱難時仍採取大膽行動。
沒有明確路線圖、指示或先知告訴我們該怎麼做——只有深切在意的人,做著他們相信能把我們帶往更好未來的事。你不需要對 AI 安全有完美的 內部視角 才能開始。這會在你實際嘗試的過程中發展。在此同時,可以依賴你尊重的組織提出的開放問題與提案。
許多人寫過關於 AI 安全技術職涯的好建議,例如 80,000 Hours、Marius Hobbhahn(Apollo 執行長與創辦人)、Neel Nanda(Google DeepMind 機詮釋研究負責人)。這裡把那些建議整理成你在這門課之後可以採取的具體行動。
我們最常給大家的建議是:
1:有疑問時,就試試看!
如果你不確定自己適不適合某個職位(而且嘗試成本不算高),就去申請。如果你不確定自己有沒有能力完成某個專案,給自己設個時間限制,動手做做看。
(但要注意:沒想清楚就做難以逆轉的事要格外小心,例如在治理領域高調發聲。複現論文並在 Substack 發文通常比較安全。)
2:在公開場合持續建設
獲得回饋、讓別人覺得你認真、找到合作夥伴,其中一個很好的方式,就是把你正在做的事告訴大家!你的想法一直放在 Google 文件裡,對你幫助不大。
在 LinkedIn 發文、開一個 Substack、參加 AI 安全活動,跟人聊聊你在做的事。沒有人期待你完美。
3:別等別人許可
不要假設已經有人在處理你在乎的問題。
就算有,多一雙手幾乎永遠是好事。工作遠多於人,他們總會需要具備合適技能、又有意願投入的人。
4:考慮「被忽略程度」。
AI 安全之所以需要更多人投入,一個關鍵原因是:相較於它對世界的重要性,投入的人實在太少。同樣地,在 AI 安全內部,有些領域與組織獲得較多關注,有些較少。
雖然較多人走過的路可能累積更好的職涯資本、也最容易看見,但也想想:你在哪裡有特別的洞察或知識,而投入的人又比較少?
5:做那些 不易被「銀河腦」合理化 的事。
人常常會很輕易地合理化自己的行動(例如加入推進 AI 能力的前沿實驗室,好「在決策發生的現場」)。但退一步想、問問自己:同樣的論點是不是也能拿來合理化幾乎任何事——這樣做往往有幫助;並且,一般而言,追求那些簡單、穩健、下行風險不極端高的改變理論。
多數人可能會覺得從以下幾大方向著手很有幫助:
研究
實作讓 AI 更安全的技術。
這可能包含直接訓練模型、從其他領域引進想法、或更偏理論的工作。例如,「模式生物」的概念最初來自生物學,「紅隊」的做法則來自資安。
對 ML 有深入理解非常加分,但 ML 經驗較少的人,可以靠 在自己小領域裡做到最強 來補。
本週你可以:
- 申請 Technical AI Safety Project 衝刺,複現並延伸一項有意思的 AI 安全發現。
- 從 Open Philanthropy、Redwood Research、UK AISI、AISI’s Alignment Team 或 Anthropic 等組織挑一個開放問題開始動手
- 獨自完成技術提升計畫,例如 ARENA(或在 Slack 找夥伴!)
- 申請 MATS、Pivotal、LASR、PIBBS 或 Anthropic Fellows 計畫 等,在有導師指導下累積研究經驗
工程
打造能讓研究者更有效跑實驗的工具與框架。
例如 UK AISI 的 Inspect 和 Anthropic 的 Petri。雖然做研究問題看起來更「炫」,工程師透過讓更多人做更有影響力的研究,貢獻可以很大。例如「評估研究」就高度依賴工程與維運。
有扎實的軟體工程背景、甚至產品經驗,有助於開發這類工具。
本週你可以:
- 申請 Technical AI Safety Project 衝刺,撰寫或改進安全研究程式碼。
- 選一個開源 AI 安全工具的 issue 來解決
- 做一個評估工具的雛型
- 參加 Apart 等機構的駭客松
創立
發起能讓 AI 系統更安全的計畫。
可能已經有組織在做你在乎的事、你可以加入,但有時候編制、文化契合、地點等會卡住。有時候,根本沒人在做你特別在乎的那一塊。
有好點子、又有高能動性非常有幫助。你可以 申請 我們的 孵化週,或 Seldon、5050 等其他管道。
雖然直接碰模型是最直觀的貢獻方式,但若以為那是唯一有影響力的方式就錯了。AI 研究者不是單打獨鬥。他們和營運、設計、產品、研究管理、招募、領域專家一起工作。
在上述類別之外,還有很多有影響力的角色。善用你獨特的強項。
注意:光靠技術工作不足以確保 AI 系統安全。我們還需要:
- 治理機制,讓所有 AI 開發者都遵守安全規範
- AI 資安,防止模型被竊或逃逸
- 社會防禦,應對仍漏網的傷害(例如 生物安全、資安)
我們會在其他課程中涵蓋這些面向。
選擇你的關注焦點
在本單元中,你將為如何開始貢獻制定一份行動計畫。這只是個開端。現階段不期待你已有完美答案。
你或許會發現以下我們提供的其他課程特別有幫助:
你也可以考慮向 80,000 Hours 索取免費的 一對一職涯諮詢。
資源(35 分鐘)
-
你現在有機會負起責任,就從讓 AI 變得更好開始。我們非常期待在這段旅程中協助你,並看看你會做出什麼!
常見的失敗模式是心想「噢,我其實做不到 X」或說「可能已經有人在做的 Y 了」。你很可能可以做 X,而且可能沒人在做 Y!那個人可以是你!
Neel Nanda · 2022 · 5 分鐘
-
Li-Lian Ang · 2025 · 5 分鐘
-
若你已決定做一個專案,你會在這裡找到有用的架構。雖然此資源以軟體工程師為對象,其中的指引也較廣泛適用。
我們正在為其他背景的學習者製作專屬指南。
Li-Lian Ang · 2025 · 10 分鐘
-
請讀至「那麼你如何成為 AI 安全專業人士?」一節結尾。
根據對 31 位 AI 安全領導者的訪談,MATS 將研究員分為「迭代者」(快速實驗者)、「連結者」(大局理論家)與「放大器」(團隊乘數)。他們也針對各類型提出有用的發展指引。
yams 與 Carson Jones · 2024 · 15 分鐘
練習:優先選擇
-
優先選擇單一介入方式
根據你在本課程至今所學,挑選一項 AI 安全技術方法。
我們也在選讀資源中整理了不同組織感到振奮的技術研究議程。
為協助你排出優先順序,可考量你認為哪種方法能有效因應你在第五單元發展出的威脅。
-
自行研究
-
這項方法的成功長什麼樣子?它如何讓 AI 更安全?
-
這項方法目前的狀態為何?政府、AI 公司或其他行動者是否已在進行?若沒有,為什麼沒有?
-
有哪些組織在從事這項工作,是你可以貢獻或加入的?
請花約 1 小時進行此練習。
-
選讀資源:研究議程
-
Open Philanthropy AI 安全技術徵求計畫:研究領域
Open Philanthropy · 2025
-
Hilton 等人 · 2025
-
Anthropic 對齊科學團隊 · 2025
-
由 Redwood 研究員提出、涵蓋多個領域的實證 AI 安全/資安專案。
Greenblatt 等人 · 2025
-
Li-Lian Ang · 2025 · 5 分鐘
擬定計畫
我們不期待這會非常詳盡或完美——把它當作初稿,一個足以幫你起步的版本就好。
學習資源(15 分鐘)
-
使用此範本制定你自己的個人行動計畫。若你認為其他範本更適合,我們鼓勵你自由調整!
Dewi Erwan · 2025 · 10 分鐘
-
Marius Hobbhahn · 2022 · 5 分鐘
練習:撰寫計畫
-
撰寫你的個人行動計畫
請花約 1 小時完成。
完成後:1)將 Google 文件設為可分享、2)貼到下方、3)在 Slack 分享給你的小組!
選讀資源
-
這篇文章很長,但充滿可付諸行動的建議,有助於你聚焦想培養的技能,或想走的技術對齊長期路徑。建議略過對你較無關的段落。
Charlie Rogers-Smith · 2024 · 45 分鐘
-
80000 Hours · 2023
-
本文介紹帕雷托前沿的概念。Rob Miles 的置頂留言也將其與比較優勢連結。閱讀時,思考你的專案能讓你站上哪些帕雷托前沿。
John Wentworth · 2019 · 5 分鐘
-
本文主張:在研究生涯早期,你應把自己當成創業者,努力做出顧客(即更廣大的社群)想消費的產品(即研究成果)。
Toby Shevlane · 2021 · 10 分鐘
-
這篇部落格講述一位對齊獨立研究者如何踏入此領域,包含如何找研究點子與取得資助。建議也看留言,特別是 Steven Byrnes 的置頂留言 以獲另一角度的觀點。
John Wentworth · 2021 · 15 分鐘
-
Neel Nanda · 2025
-
實用指南,列出為邁向機器學習研究工程師角色而累積技能的一些建議步驟。這些對對齊組織的許多職缺都相當適用。
Gabe Mukobi · 2022 · 15 分鐘
謝謝你!
我們希望你在這門課程中收穫豐富,也很期待看到你如何為讓 AI 往好的方向發展貢獻一己之力 :)
恭喜你完成「技術性 AI 安全」課程!
現在分享你的觀點吧!那些反思若只是躺在習題框裡,起不了什麼作用。把它們分享給你的網絡,讓對話展開吧。