Technical Past

AI Safety Taiwan: ARENA 3.0 Workshop

A two-day hands-on technical AI safety workshop covering Transformers, Mechanistic Interpretability, RLHF, and Model Evaluation, adapted from the ARENA 3.0 curriculum.

August 2, 2025

workshoptechnicalarenamechanistic-interpretabilityrlhfevalspast

Course Material: ARENA 3.0 | Contact: aisafety.taiwan@gmail.com

1. 活動概述

AI Safety Taiwan: ARENA 3.0 Workshop 是一個為期兩天的技術密集工作坊，改編自國際開源課程 ARENA 3.0，涵蓋從 Transformer 架構到機制解釋性（Mechanistic Interpretability）、強化學習（RL）與大語言模型評估（LLM Evaluation），為台灣培養具備實戰能力的 AI 安全性人才。

本活動分為兩梯次舉辦，每梯次皆為兩天：第一梯次 8/2–8/3、第二梯次 8/16–8/17。同一套課程與時程適用於兩梯次。

本活動由 Open Philanthropy 贊助，免費參與。

2. 活動背景與目標

AI Safety Taiwan 致力於打造安全且符合人類價值的人工智慧未來。台灣作為全球 AI 領域的重鎮，我們期待培養 AI Safety & Alignment 相關領域的研究人才，提升台灣在這一領域的影響力。

ARENA 課程的特色

已在國外證實有效的強化學習（RL）實作課程
從 Transformer 架構到 RL，涵蓋核心 AI 技術
重視 AI Alignment & Safety 技術，符合 Effective Altruism（EA）理念

學習目標

完成 Workshop 後，參與者能夠：

了解 AI safety 當前研究與限制
理解 Transformer 模型架構及運作原理
操作至少兩種 Mechanistic Interpretability 技術分析模型
實作基於人類反饋的強化學習算法（RLHF）
設計簡單的 LLM 評估方法
有能力跟進前沿的 AI safety 研究

3. 參與對象

目標學員

具備 Python 基礎知識，並對機器學習有基本概念，包含：

大學生（主要對象）：資訊、電機、數學、物理等科系
碩士生：正在做 AI 相關研究
高中生：對 AI 有強烈興趣且具備程式基礎
工作人士：想深入學習 AI 技術的工程師

報名條件

有 Python 程式設計經驗
對深度學習有基本認識（知道什麼是神經網路）

報名時將確認：程式設計經驗、學習動機與時間投入意願、是否能完整參與兩天課程。

4. 課程架構

Day 1：AI Safety 入門與機制解釋性

上午（10:00–12:00）

AI Safety 入門（60min）
- AI Alignment 的重要性
- 當前 AI 安全挑戰
- Workshop 目標與期待設定
Transformers 基礎（60min，ARENA 1.1）
- Transformer 架構概覽
- Attention 機制基本原理
- 建立對 Transformer 的基本認知

下午（13:30–18:00）

機制解釋性入門（30min）
- 什麼是 Mechanistic Interpretability？
- 為什麼需要解釋 AI 模型？
SAE 解釋性實作（90min，ARENA 1.3.2-1）
- Sparse Autoencoders 原理
- 特徵操控與模型引導實驗
平衡括號分類器解釋（120min，ARENA 1.5.1）
- 實際案例：解釋簡單算法模型
- Mechanistic Interpretability 完整流程
緩衝時間（30min）

Day 2：強化學習與模型評估

上午（10:00–12:00）

強化學習入門（30min）
- RL 基本概念與應用
人類反饋強化學習（90min，ARENA 2.4）
- RLHF 原理與實作
- 模型對齊技術

下午（13:30–18:00）

模型評估入門（60min，ARENA 3.1）
- 為什麼需要評估 LLM？
- 評估方法論與 API 使用
Inspect 評估框架實作（150min，ARENA 3.3）
- 使用 Inspect 框架進行模型評估
- 實際評估案例與 API 整合
總結與未來展望（60min）
- AI Safety 領域發展方向
- 後續學習資源與社群連結

5. 時程表

5.1 活動日期

本工作坊舉辦兩梯次，每梯次皆為兩天，課程內容與每日時程相同：

梯次	日期	備註
第一梯次	2025 年 8 月 2 日（六）– 8 月 3 日（日）	兩天
第二梯次	2025 年 8 月 16 日（六）– 8 月 17 日（日）	兩天

5.2 詳細時程表

以下為單一梯次的每日時程（Day 1 與 Day 2），兩梯次皆適用。

時間	Day 1 (8/2 、 8/16)	Day 2 (8/3 、8/17)
10:00–10:30	AI Safety 入門	RL 入門
10:30–12:00	Transformers 基礎（ARENA 1.1）	實作 RLHF（ARENA 2.4）
12:00–13:30	午餐	午餐
13:30–14:00	機制解釋性入門	模型評估入門（ARENA 3.1）
14:00–15:30	機制解釋性實作一：SAE（ARENA 1.3.2-1）	Inspect 模型評估框架應用（ARENA 3.3）
15:30–17:30	機制解釋性實作二：平衡括號分類器（ARENA 1.5.1）	Inspect 模型評估框架應用（ARENA 3.3）
17:30–18:00	緩衝時間	總結與未來展望

6. 學習資源

程式碼庫：ARENA 3.0 課程內容（Chapter 1.1, 1.3.2, 1.5.1, 2.4, 3.1, 3.3）
線上教材：Jupyter Notebook 互動式教學
參考資料：AI Safety 與 Mechanistic Interpretability 精選論文

7. 場地 & 費用

場地：台大德田館（容量：25 人 × 2 梯次；設備：投影、網路、插座充足）
自備：筆記型電腦
費用：免費（由 Open Philanthropy 贊助）

8. 聯絡資訊

Email：aisafety.taiwan@gmail.com
官方網站：https://aisafety-taiwan.github.io/ai-safety-taiwan-homepage/#home
報名網址：https://forms.gle/Hmn3YTmRYjgT9H2K6