AI Safety Taiwan: ARENA 3.0 Workshop
A two-day hands-on technical AI safety workshop covering Transformers, Mechanistic Interpretability, RLHF, and Model Evaluation, adapted from the ARENA 3.0 curriculum.
Course Material: ARENA 3.0 | Contact: aisafety.taiwan@gmail.com
1. 活動概述
AI Safety Taiwan: ARENA 3.0 Workshop 是一個為期兩天的技術密集工作坊,改編自國際開源課程 ARENA 3.0,涵蓋從 Transformer 架構到機制解釋性(Mechanistic Interpretability)、強化學習(RL)與大語言模型評估(LLM Evaluation),為台灣培養具備實戰能力的 AI 安全性人才。
本活動分為兩梯次舉辦,每梯次皆為兩天:第一梯次 8/2–8/3、第二梯次 8/16–8/17。同一套課程與時程適用於兩梯次。
本活動由 Open Philanthropy 贊助,免費參與。
2. 活動背景與目標
AI Safety Taiwan 致力於打造安全且符合人類價值的人工智慧未來。台灣作為全球 AI 領域的重鎮,我們期待培養 AI Safety & Alignment 相關領域的研究人才,提升台灣在這一領域的影響力。
ARENA 課程的特色
- 已在國外證實有效的強化學習(RL)實作課程
- 從 Transformer 架構到 RL,涵蓋核心 AI 技術
- 重視 AI Alignment & Safety 技術,符合 Effective Altruism(EA)理念
學習目標
完成 Workshop 後,參與者能夠:
- 了解 AI safety 當前研究與限制
- 理解 Transformer 模型架構及運作原理
- 操作至少兩種 Mechanistic Interpretability 技術分析模型
- 實作基於人類反饋的強化學習算法(RLHF)
- 設計簡單的 LLM 評估方法
- 有能力跟進前沿的 AI safety 研究
3. 參與對象
目標學員
具備 Python 基礎知識,並對機器學習有基本概念,包含:
- 大學生(主要對象):資訊、電機、數學、物理等科系
- 碩士生:正在做 AI 相關研究
- 高中生:對 AI 有強烈興趣且具備程式基礎
- 工作人士:想深入學習 AI 技術的工程師
報名條件
- 有 Python 程式設計經驗
- 對深度學習有基本認識(知道什麼是神經網路)
報名時將確認:程式設計經驗、學習動機與時間投入意願、是否能完整參與兩天課程。
4. 課程架構
Day 1:AI Safety 入門與機制解釋性
上午(10:00–12:00)
-
AI Safety 入門(60min)
- AI Alignment 的重要性
- 當前 AI 安全挑戰
- Workshop 目標與期待設定
-
Transformers 基礎(60min,ARENA 1.1)
- Transformer 架構概覽
- Attention 機制基本原理
- 建立對 Transformer 的基本認知
下午(13:30–18:00)
-
機制解釋性入門(30min)
- 什麼是 Mechanistic Interpretability?
- 為什麼需要解釋 AI 模型?
-
SAE 解釋性實作(90min,ARENA 1.3.2-1)
- Sparse Autoencoders 原理
- 特徵操控與模型引導實驗
-
平衡括號分類器解釋(120min,ARENA 1.5.1)
- 實際案例:解釋簡單算法模型
- Mechanistic Interpretability 完整流程
-
緩衝時間(30min)
Day 2:強化學習與模型評估
上午(10:00–12:00)
-
強化學習入門(30min)
- RL 基本概念與應用
-
人類反饋強化學習(90min,ARENA 2.4)
- RLHF 原理與實作
- 模型對齊技術
下午(13:30–18:00)
-
模型評估入門(60min,ARENA 3.1)
- 為什麼需要評估 LLM?
- 評估方法論與 API 使用
-
Inspect 評估框架實作(150min,ARENA 3.3)
- 使用 Inspect 框架進行模型評估
- 實際評估案例與 API 整合
-
總結與未來展望(60min)
- AI Safety 領域發展方向
- 後續學習資源與社群連結
5. 時程表
5.1 活動日期
本工作坊舉辦兩梯次,每梯次皆為兩天,課程內容與每日時程相同:
| 梯次 | 日期 | 備註 |
|---|---|---|
| 第一梯次 | 2025 年 8 月 2 日(六)– 8 月 3 日(日) | 兩天 |
| 第二梯次 | 2025 年 8 月 16 日(六)– 8 月 17 日(日) | 兩天 |
5.2 詳細時程表
以下為單一梯次的每日時程(Day 1 與 Day 2),兩梯次皆適用。
| 時間 | Day 1 (8/2 、 8/16) | Day 2 (8/3 、8/17) |
|---|---|---|
| 10:00–10:30 | AI Safety 入門 | RL 入門 |
| 10:30–12:00 | Transformers 基礎(ARENA 1.1) | 實作 RLHF(ARENA 2.4) |
| 12:00–13:30 | 午餐 | 午餐 |
| 13:30–14:00 | 機制解釋性入門 | 模型評估入門(ARENA 3.1) |
| 14:00–15:30 | 機制解釋性實作一:SAE(ARENA 1.3.2-1) | Inspect 模型評估框架應用(ARENA 3.3) |
| 15:30–17:30 | 機制解釋性實作二:平衡括號分類器(ARENA 1.5.1) | Inspect 模型評估框架應用(ARENA 3.3) |
| 17:30–18:00 | 緩衝時間 | 總結與未來展望 |
6. 學習資源
- 程式碼庫:ARENA 3.0 課程內容(Chapter 1.1, 1.3.2, 1.5.1, 2.4, 3.1, 3.3)
- 線上教材:Jupyter Notebook 互動式教學
- 參考資料:AI Safety 與 Mechanistic Interpretability 精選論文
7. 場地 & 費用
- 場地:台大德田館(容量:25 人 × 2 梯次;設備:投影、網路、插座充足)
- 自備:筆記型電腦
- 費用:免費(由 Open Philanthropy 贊助)