← Events
Technical Past

AI Safety Taiwan: ARENA 3.0 Workshop

A two-day hands-on technical AI safety workshop covering Transformers, Mechanistic Interpretability, RLHF, and Model Evaluation, adapted from the ARENA 3.0 curriculum.

workshoptechnicalarenamechanistic-interpretabilityrlhfevalspast

Course Material: ARENA 3.0 | Contact: aisafety.taiwan@gmail.com

1. 活動概述

AI Safety Taiwan: ARENA 3.0 Workshop 是一個為期兩天的技術密集工作坊,改編自國際開源課程 ARENA 3.0,涵蓋從 Transformer 架構到機制解釋性(Mechanistic Interpretability)、強化學習(RL)與大語言模型評估(LLM Evaluation),為台灣培養具備實戰能力的 AI 安全性人才。

本活動分為兩梯次舉辦,每梯次皆為兩天第一梯次 8/2–8/3第二梯次 8/16–8/17。同一套課程與時程適用於兩梯次。

本活動由 Open Philanthropy 贊助,免費參與


2. 活動背景與目標

AI Safety Taiwan 致力於打造安全且符合人類價值的人工智慧未來。台灣作為全球 AI 領域的重鎮,我們期待培養 AI Safety & Alignment 相關領域的研究人才,提升台灣在這一領域的影響力。

ARENA 課程的特色

  • 已在國外證實有效的強化學習(RL)實作課程
  • 從 Transformer 架構到 RL,涵蓋核心 AI 技術
  • 重視 AI Alignment & Safety 技術,符合 Effective Altruism(EA)理念

學習目標

完成 Workshop 後,參與者能夠:

  • 了解 AI safety 當前研究與限制
  • 理解 Transformer 模型架構及運作原理
  • 操作至少兩種 Mechanistic Interpretability 技術分析模型
  • 實作基於人類反饋的強化學習算法(RLHF)
  • 設計簡單的 LLM 評估方法
  • 有能力跟進前沿的 AI safety 研究

3. 參與對象

目標學員

具備 Python 基礎知識,並對機器學習有基本概念,包含:

  • 大學生(主要對象):資訊、電機、數學、物理等科系
  • 碩士生:正在做 AI 相關研究
  • 高中生:對 AI 有強烈興趣且具備程式基礎
  • 工作人士:想深入學習 AI 技術的工程師

報名條件

  • 有 Python 程式設計經驗
  • 對深度學習有基本認識(知道什麼是神經網路)

報名時將確認:程式設計經驗、學習動機與時間投入意願、是否能完整參與兩天課程。


4. 課程架構

Day 1:AI Safety 入門與機制解釋性

上午(10:00–12:00)

  • AI Safety 入門(60min)

    • AI Alignment 的重要性
    • 當前 AI 安全挑戰
    • Workshop 目標與期待設定
  • Transformers 基礎(60min,ARENA 1.1)

    • Transformer 架構概覽
    • Attention 機制基本原理
    • 建立對 Transformer 的基本認知

下午(13:30–18:00)

  • 機制解釋性入門(30min)

    • 什麼是 Mechanistic Interpretability?
    • 為什麼需要解釋 AI 模型?
  • SAE 解釋性實作(90min,ARENA 1.3.2-1)

    • Sparse Autoencoders 原理
    • 特徵操控與模型引導實驗
  • 平衡括號分類器解釋(120min,ARENA 1.5.1)

    • 實際案例:解釋簡單算法模型
    • Mechanistic Interpretability 完整流程
  • 緩衝時間(30min)


Day 2:強化學習與模型評估

上午(10:00–12:00)

  • 強化學習入門(30min)

    • RL 基本概念與應用
  • 人類反饋強化學習(90min,ARENA 2.4)

    • RLHF 原理與實作
    • 模型對齊技術

下午(13:30–18:00)

  • 模型評估入門(60min,ARENA 3.1)

    • 為什麼需要評估 LLM?
    • 評估方法論與 API 使用
  • Inspect 評估框架實作(150min,ARENA 3.3)

    • 使用 Inspect 框架進行模型評估
    • 實際評估案例與 API 整合
  • 總結與未來展望(60min)

    • AI Safety 領域發展方向
    • 後續學習資源與社群連結

5. 時程表

5.1 活動日期

本工作坊舉辦兩梯次,每梯次皆為兩天,課程內容與每日時程相同:

梯次日期備註
第一梯次2025 年 8 月 2 日(六)– 8 月 3 日(日)兩天
第二梯次2025 年 8 月 16 日(六)– 8 月 17 日(日)兩天

5.2 詳細時程表

以下為單一梯次的每日時程(Day 1 與 Day 2),兩梯次皆適用。

時間Day 1 (8/2 、 8/16)Day 2 (8/3 、8/17)
10:00–10:30AI Safety 入門RL 入門
10:30–12:00Transformers 基礎(ARENA 1.1)實作 RLHF(ARENA 2.4)
12:00–13:30午餐午餐
13:30–14:00機制解釋性入門模型評估入門(ARENA 3.1)
14:00–15:30機制解釋性實作一:SAE(ARENA 1.3.2-1)Inspect 模型評估框架應用(ARENA 3.3)
15:30–17:30機制解釋性實作二:平衡括號分類器(ARENA 1.5.1)Inspect 模型評估框架應用(ARENA 3.3)
17:30–18:00緩衝時間總結與未來展望

6. 學習資源

  • 程式碼庫:ARENA 3.0 課程內容(Chapter 1.1, 1.3.2, 1.5.1, 2.4, 3.1, 3.3)
  • 線上教材:Jupyter Notebook 互動式教學
  • 參考資料:AI Safety 與 Mechanistic Interpretability 精選論文

7. 場地 & 費用

  • 場地:台大德田館(容量:25 人 × 2 梯次;設備:投影、網路、插座充足)
  • 自備:筆記型電腦
  • 費用:免費(由 Open Philanthropy 贊助)

8. 聯絡資訊