← Blog

技術性 AI 安全課程:第六週 - 你的下一步

你正站在 AI 安全技術旅程的起點。本週課程整理了 AI 安全技術的全貌,並提供具體的職涯建議與行動計畫,協助你找到適合自己的貢獻方式。

本文翻譯自 BlueDot Impact Technical AI Safety 課程內容。

你正站在 AI 安全技術旅程的起點。

這門課為你整理了 AI 安全技術的全貌:讓 AI 更安全背後的主要挑戰、現有的安全技術,以及它們的不足之處。

你已經開始培養一些研究品味——也就是判斷哪些 AI 安全技術領域值得投入、以及為什麼的能力。據我們估計,全職投入讓 AI 系統更安全的人不到 2,000 人,這個領域需要具備 高能動性 的人——願意在艱難時仍採取大膽行動。

沒有明確路線圖、指示或先知告訴我們該怎麼做——只有深切在意的人,做著他們相信能把我們帶往更好未來的事。你不需要對 AI 安全有完美的 內部視角 才能開始。這會在你實際嘗試的過程中發展。在此同時,可以依賴你尊重的組織提出的開放問題與提案。

許多人寫過關於 AI 安全技術職涯的好建議,例如 80,000 HoursMarius Hobbhahn(Apollo 執行長與創辦人)、Neel Nanda(Google DeepMind 機詮釋研究負責人)。這裡把那些建議整理成你在這門課之後可以採取的具體行動。

我們最常給大家的建議是:

1:有疑問時,就試試看!

如果你不確定自己適不適合某個職位(而且嘗試成本不算高),就去申請。如果你不確定自己有沒有能力完成某個專案,給自己設個時間限制,動手做做看。

(但要注意:沒想清楚就做難以逆轉的事要格外小心,例如在治理領域高調發聲。複現論文並在 Substack 發文通常比較安全。)

2:在公開場合持續建設

獲得回饋、讓別人覺得你認真、找到合作夥伴,其中一個很好的方式,就是把你正在做的事告訴大家!你的想法一直放在 Google 文件裡,對你幫助不大。

在 LinkedIn 發文、開一個 Substack、參加 AI 安全活動,跟人聊聊你在做的事。沒有人期待你完美。

3:別等別人許可

不要假設已經有人在處理你在乎的問題。

就算有,多一雙手幾乎永遠是好事。工作遠多於人,他們總會需要具備合適技能、又有意願投入的人。

4:考慮「被忽略程度」。

AI 安全之所以需要更多人投入,一個關鍵原因是:相較於它對世界的重要性,投入的人實在太少。同樣地,在 AI 安全內部,有些領域與組織獲得較多關注,有些較少。

雖然較多人走過的路可能累積更好的職涯資本、也最容易看見,但也想想:你在哪裡有特別的洞察或知識,而投入的人又比較少?

5:做那些 不易被「銀河腦」合理化 的事。

人常常會很輕易地合理化自己的行動(例如加入推進 AI 能力的前沿實驗室,好「在決策發生的現場」)。但退一步想、問問自己:同樣的論點是不是也能拿來合理化幾乎任何事——這樣做往往有幫助;並且,一般而言,追求那些簡單、穩健、下行風險不極端高的改變理論。


多數人可能會覺得從以下幾大方向著手很有幫助:

研究

實作讓 AI 更安全的技術。

這可能包含直接訓練模型、從其他領域引進想法、或更偏理論的工作。例如,「模式生物」的概念最初來自生物學,「紅隊」的做法則來自資安。

對 ML 有深入理解非常加分,但 ML 經驗較少的人,可以靠 在自己小領域裡做到最強 來補。

本週你可以:

工程

打造能讓研究者更有效跑實驗的工具與框架。

例如 UK AISI 的 Inspect 和 Anthropic 的 Petri。雖然做研究問題看起來更「炫」,工程師透過讓更多人做更有影響力的研究,貢獻可以很大。例如「評估研究」就高度依賴工程與維運。

有扎實的軟體工程背景、甚至產品經驗,有助於開發這類工具。

本週你可以:

  • 申請 Technical AI Safety Project 衝刺,撰寫或改進安全研究程式碼。
  • 選一個開源 AI 安全工具的 issue 來解決
  • 做一個評估工具的雛型
  • 參加 Apart 等機構的駭客松

創立

發起能讓 AI 系統更安全的計畫。

可能已經有組織在做你在乎的事、你可以加入,但有時候編制、文化契合、地點等會卡住。有時候,根本沒人在做你特別在乎的那一塊。

有好點子、又有高能動性非常有幫助。你可以 申請 我們的 孵化週,或 Seldon5050 等其他管道。

雖然直接碰模型是最直觀的貢獻方式,但若以為那是唯一有影響力的方式就錯了。AI 研究者不是單打獨鬥。他們和營運、設計、產品、研究管理、招募、領域專家一起工作。

在上述類別之外,還有很多有影響力的角色。善用你獨特的強項。


注意:光靠技術工作不足以確保 AI 系統安全。我們還需要:

  • 治理機制,讓所有 AI 開發者都遵守安全規範
  • AI 資安,防止模型被竊或逃逸
  • 社會防禦,應對仍漏網的傷害(例如 生物安全、資安)

我們會在其他課程中涵蓋這些面向。

選擇你的關注焦點

在本單元中,你將為如何開始貢獻制定一份行動計畫。這只是個開端。現階段不期待你已有完美答案。

你或許會發現以下我們提供的其他課程特別有幫助:

  • AGI 策略課程 用於發展你對如何引導 AI 發展軌跡的變革理論。
  • AI 安全技術專案 用於建立你的作品集,或測試你適合成為 AI 安全研究員或工程師與否。

你也可以考慮向 80,000 Hours 索取免費的 一對一職涯諮詢

資源(35 分鐘)

  • 成為一個真正會做事的人

    你現在有機會負起責任,就從讓 AI 變得更好開始。我們非常期待在這段旅程中協助你,並看看你會做出什麼!

    常見的失敗模式是心想「噢,我其實做不到 X」或說「可能已經有人在做的 Y 了」。你很可能可以做 X,而且可能沒人在做 Y!那個人可以是你!

    Neel Nanda · 2022 · 5 分鐘

  • 你該做 AI 安全研究/工程專案嗎?

    Li-Lian Ang · 2025 · 5 分鐘

  • 軟體工程師指南:在一週內做出你的第一份 AI 安全貢獻

    若你已決定做一個專案,你會在這裡找到有用的架構。雖然此資源以軟體工程師為對象,其中的指引也較廣泛適用。

    我們正在為其他背景的學習者製作專屬指南。

    Li-Lian Ang · 2025 · 10 分鐘

  • AI 安全技術團隊的人才需求

    請讀至「那麼你如何成為 AI 安全專業人士?」一節結尾。

    根據對 31 位 AI 安全領導者的訪談,MATS 將研究員分為「迭代者」(快速實驗者)、「連結者」(大局理論家)與「放大器」(團隊乘數)。他們也針對各類型提出有用的發展指引。

    yams 與 Carson Jones · 2024 · 15 分鐘

練習:優先選擇

  • 優先選擇單一介入方式

    根據你在本課程至今所學,挑選一項 AI 安全技術方法。

    我們也在選讀資源中整理了不同組織感到振奮的技術研究議程。

    為協助你排出優先順序,可考量你認為哪種方法能有效因應你在第五單元發展出的威脅。

  • 自行研究

    • 這項方法的成功長什麼樣子?它如何讓 AI 更安全?

    • 這項方法目前的狀態為何?政府、AI 公司或其他行動者是否已在進行?若沒有,為什麼沒有?

    • 有哪些組織在從事這項工作,是你可以貢獻或加入的?

      請花約 1 小時進行此練習。

選讀資源:研究議程

擬定計畫

我們不期待這會非常詳盡或完美——把它當作初稿,一個足以幫你起步的版本就好。

學習資源(15 分鐘)

練習:撰寫計畫

  • 撰寫你的個人行動計畫

    請花約 1 小時完成。

    完成後:1)將 Google 文件設為可分享、2)貼到下方、3)在 Slack 分享給你的小組!

選讀資源

謝謝你!

我們希望你在這門課程中收穫豐富,也很期待看到你如何為讓 AI 往好的方向發展貢獻一己之力 :)

恭喜你完成「技術性 AI 安全」課程!

現在分享你的觀點吧!那些反思若只是躺在習題框裡,起不了什麼作用。把它們分享給你的網絡,讓對話展開吧。