NTU AI Safety 讀書會：第三週 - AI 對齊問題與潛在風險

本週主題：AI 對齊為何如此困難？

上週我們建立了神經網路的技術基礎。本週我們要面對核心問題：為什麼讓 AI 做我們真正想要它做的事，比想像中困難得多？

by Adam Jones (2024) · 文章 · 15 分鐘

介紹 AI Safety 與「對齊」的定義，並將其拆解為**外部對齊（Outer Alignment）與內部對齊（Inner Alignment）**兩個子問題。

建議：先思考你自己對「對齊」的定義，再對照文章中的定義，看看有哪些異同。

by Robert Miles (2021) · 影片 · 20 分鐘

介紹 AI Safety 的關鍵概念，聚焦於對齊問題，包含代理人（agents）、智能（intelligence）、通用性（generality）、優化器（optimisers）與**收斂工具性目標（convergent instrumental goals）**的討論。

by Jacob Steinhardt (2022) · Blog · 4 分鐘

Steinhardt 討論在思考機器學習時，實驗工作與哲學思想實驗各自的優缺點。這篇文章幫助我們理解為什麼課程中有些論點偏哲學、有些則基於實驗結果。

by Nate Soares (2015) · 文章 · 15 分鐘

介紹關於 AI 系統的四個高層次主張，包含是否可能建構出來，以及它們如何影響未來。

📝 注意：這篇文章寫於現代 Transformer 模型問世之前，可以對照當今的發展來評估其預測。

by Adam Jones (2024) · 文章 · 15 分鐘

介紹當前與未來 AI 系統帶來的各種風險，思考若不同風險組合同時發生，未來可能如何演變。

by Holden Karnofsky (2023) · 文章 · 36 分鐘

描述一個可能的未來故事：如果在沒有足夠保障措施的情況下，變革性 AI 在近期被開發出來，事情可能如何演變。閱讀時思考：你認為這個故事有多可信？

by Ajeya Cotra (2021) · Blog · 25 分鐘

引入一個關於先進 AI 系統的對齊框架：聖人（Saints）、應聲蟲（Sycophants）與陰謀者（Schemers），並討論其現實世界的影響。

理解這個框架對於思考如何評估和訓練 AI 系統至關重要。