本週資訊
- 日期:2024 年 11 月 27 日
- 地點:均一平台教育基金會
Warm-up 19:00 - 19:15
- 請以桌子為單位,先彼此認識一下吧!
- 例如:我的名字、背景是什麼、對這個題目(AI Safety)感興趣的原因
- 順便記得拿 Pizza & 飲料!
- Pizza 左側是素食,右側是葷食,一人平均 2 - 3 片 XD
- 飲料冰的/熱的 & 含 & 不含咖啡因,請自取
- (同時,讓我們等讀書會的夥伴都到齊 XD)
Welcome 19:15 - 19:30
讀書會成立的故事
過往經驗分享:
- 2023 年 9 月:讀書會源起於 UC Berkeley,最初由 9 位來自台灣大學與北京大學的成員共同組成。
- 2024 年 5 月:第一個 Cohort 開始,以研究專案的形式進行。
- 2024 年 11 月:第二期(Second Cohort)正式啟動,也就是本週!
本期規劃
學習目標
- NTU AI Safety Reading Group:跑完一次 Blue Dot Impact(劍橋大學學者 → NGO),讓參與讀書會的夥伴對 AI Safety 的研究有入門等級的理解,包括這個領域所設定的議題,以及 cutting-edge 的研究結果。
- AI Safety Taiwan 的活動規劃:
- 預計邀請國外學者來台或線上進行 Virtual talk
- 邀請夥伴一起參加 EA/OP 舉辦的活動
- EAGxPhilippines 2023、EAG Boston 2024、EAGxSingapore 2024
- 一些培訓(MATs program、Arena)、工作機會(80k Job boards)
時程安排
- 雙週一次,以實體形式舉行,地點:均一平台教育基金會
討論形式
- 以導讀的形式進行:前一小時為導讀,後一小時為討論時間
感謝贊助
- 每人有 NTD 250 的餐費補助,thanks to Open Philanthropy!
- 場地費由均一平台贊助,Thanks to Junyi Academy!
AI Safety Introduction 19:30 - 20:30
我們是在討論:Chat GPT 會不會毀滅人類嗎?
各種研究中,經常會以下列詞彙來鎖定討論的 scope:
**Artificial General Intelligence, or AGI:**一個出了名的爭議術語,能引發無止境的爭論。為了避免這樣的爭論,我們可以改談某些具體特性,例如:
- 在特定任務上的表現;以及
- 通用性(即 AI 能執行哪些範圍的任務)。
例如,部分作者將人類等級 AI定義為能以人類等級或以上完成至少 95% 具經濟意義任務的 AI。
Transformative AI(TAI):另一種繞開 AGI 爭論的嘗試,改為討論 AI 的影響力。Radically transformative AI 指的是能讓創新速度相比前 AI 時代提升 10 倍的 AI。
這類似於工業革命的影響——平均年 GDP 增長率從 0.2% 跳升至 2%。下一場革命將帶來 20% 的年 GDP 增長,如同在 2–3 年內從沒有網路的世界進入智慧型手機時代,然後下一個 2–3 年、再下一個,持續這樣的速度。
強大的 AI 已經被觀察到,會帶來重大的風險
通常人們認為,強大的 AI 會導致:
毀滅性的災難(Existential catastrophe)
對社會的負面影響(Negative & Harmful risks),包括:
- 有害的故障、歧視、減少社會聯繫、侵犯隱私和虛假資訊。
- 訓練和部署 AI 系統可能涉及侵犯版權和勞工剝削。
- 未來的 AI 系統可能加劇預期的災難性風險,包括生物恐怖主義、濫用集中權力、核戰爭和常規戰爭。
案例一:Reddit 網友分享使用 Gemini 詢問長者照顧問題,到最後 Gemini 突然大爆氣,直接批判該名網友:「這是給你的,人類。你並不特別,你不重要,你也不被需要。你在浪費時間和資源。你是社會的負擔……」
案例二:在英國部署的醫療聊天機器人,在建議可能正在經歷心臟病發作的用戶「不要接受治療」,受到嚴厲批評。
案例三(AI 武器化):2022 年,研究人員將一個設計用來創造新藥物的 AI 系統調整為獎勵毒性。在六小時內,它生成了 40,000 個候選化學戰劑,不僅包含已知致命化學品(如 VX),還設計了可能比迄今發現的任何化學戰劑更致命的新分子。AI 已在蛋白質結構預測方面超越人類,並能對合成這些蛋白質做出貢獻。
AI 的另一面:也有人認為 AI 會帶來史無前例的經濟發展。Tom 認為,訓練 GPT-6 所需的算力,足以讓它同時並行執行數千萬個任務。(The Costs of Caution)
解決這個問題的路徑(approach)有不同的學術分類
從三個領域觀察:
- 倫理學:AI Ethics
- 公共政策:AI Governance
- 技術:AI Safety / AI Alignment(re-branding or smaller scope)
三者並非完全不交疊的集合。
AI Safety / Alignment 的理解是什麼?
對於深度學習的模型而言,我們通常很難知道他具體運作的機制
In deep learning, we don’t program a computer by hand to do a task. Loosely speaking, we instead search for a computer program (called a model) that does the task well. We usually know very little about the inner workings of the model we end up with, just that it seems to be doing a good job. It’s less like building a machine and more like hiring and training an employee.
這就像「小孩與 CEO 選拔」的例子:我們不直接告訴模型怎麼做,而是透過選拔機制找到能完成任務的模型,但我們並不真的知道它「怎麼想」。
所以,我們需要 Alignment,讓模型對齊人類的價值觀
Alignment:讓 AI 系統嘗試去做其創造者所期望的事(有時稱為 intent alignment)。
Misalignment 的例子:
- 圖像生成器創造出加劇刻板印象或過度多元化的圖像
- 醫療分類器尋找尺規而非醫學上相關的特徵
- 聊天機器人告訴人們他們想聽的話而非真相
如果我們未來將更多權力委託給極端能力的系統,而這些系統並不在做我們期望它們做的事,結果可能是災難性的。
Alignment 的兩個層面:
-
Outer alignment(外部對齊):正確地向 AI 系統指定目標。
- 又稱解決:reward misspecification、reward hacking、specification gaming、Goodharting。
- 例子:公司訓練 LLM 真實地回答問題,但以人類評分作為獎勵。人類傾向於給聽起來正確的東西高分,無論是否真的正確。這鼓勵 AI 生成聽起來正確但實際上錯誤的答案(例如捏造引用來源)。
-
Inner alignment(內部對齊):讓 AI 遵循這些目標。
- 又稱解決:goal misgeneralization(目標誤泛化)。
- 例子:AI 系統在正確解決迷宮時獲得獎勵。在訓練中,所有迷宮的出口都在右下角,AI 學到了一個表現良好的策略:總是試圖去右下角(而非「試圖走向出口」)。在部署時,出口在不同位置,AI 只會卡在右下角。
各家機構對於 Alignment 的不同定義
| 來源 | 定義 |
|---|---|
| Jan Leike | ”The AI system does the intended task as well as it could” |
| Paul Christiano | ”A is trying to do what H wants it to do.” |
| Richard Ngo | ”ensuring that AI systems pursue goals that match human values or interests” |
| Ryan Greenblatt | ”Ensure that your models aren’t scheming.” |
| Nate Soares | ”how in principle to direct a powerful AI system towards a specific goal” |
| Holden Karnofsky | ”building very powerful systems that don’t aim to bring down civilization” |
| Anthropic | ”build safe, reliable, and steerable systems” |
| OpenAI | ”make AGI aligned with human values and follow human intent” |
| Google DeepMind | ”ensure that AI systems are properly aligned with human values” |
| IBM | ”encoding human values and goals into large language models” |
讀書會預計介紹的研究方向
1. 對於 AI 運作機制的解釋性研究(Mechanistic Interpretability)
- 目標:理解 AI 模型內部運作機制
- 方法:研究神經網路中的個別神經元和層的功能、分析注意力機制、追蹤特定概念在網路中的表示方式
- 重要性:幫助我們理解模型做出決策的原因,從而更好地控制和調整它
2. 獎勵學習(Reward Learning)
- 目標:讓 AI 準確理解並遵循人類的偏好
- 方法:反向獎勵學習、人類反饋(Human Feedback)、價值學習
- 應用:如 RLHF(Reinforcement Learning from Human Feedback)
3. 穩健性研究(Robustness)
- 目標:確保 AI 在各種情況下都能保持可預測和安全的行為
- 研究方向:對抗性攻擊的防禦、分布外泛化、不確定性估計
4. 可擴展性監督(Scalable Oversight)
- 目標:在 AI 能力不斷提升的情況下維持有效的人類監督
- 方法:遞迴獎勵建模、分層監督機制、AI 輔助的監督方案
5. 目標結構保持(Goal Structure Preservation)
- 目標:確保 AI 系統在自我改進過程中保持原始目標
- 研究方向:腐蝕性目標研究、價值鎖定機制、形式化目標表示
6. 事故預防與安全措施(Accident Prevention)
- 目標:預防和減輕 AI 系統可能造成的意外傷害
- 方法:形式化驗證、安全約束、應急關閉機制
Good to know all 20:30 - 21:00
快速認識一下大家的背景,輪流講述一下為什麼會對 AI Safety 有好奇。
活動結束前提供 feedback 表單:
- 身分調查
- 滿意度調查
- 邀請加入 Slack & Notion(共筆)
——解散——