Blog

Posts

Research notes, course summaries, and perspectives from the NTUAIS community.

Feb 8, 2026 Technical AI Safety AI SafetyCourse

技術性 AI 安全課程：第六週 - 你的下一步

你正站在 AI 安全技術旅程的起點。本週課程整理了 AI 安全技術的全貌，並提供具體的職涯建議與行動計畫，協助你找到適合自己的貢獻方式。

Feb 1, 2026 Technical AI Safety AI SafetyCourse

技術性 AI 安全課程：第五週 - 假設傷害會發生

本週課程探討 AI 系統可能造成的災難性風險（如幫助惡意行為者或意外失控），以及我們如何透過威脅建模與防禦策略來降低這些風險。

Jan 25, 2026 Technical AI Safety AI SafetyCourse

技術性 AI 安全課程：第四週 - AI 是怎麼思考的？

本週課程探討機械式可解釋性（Mechanistic Interpretability）：嘗試逆向工程 AI 模型以理解其內部運作，就像神經科學家研究大腦一樣。

Jan 20, 2026 Technical AI Safety AI SafetyCourse

技術性 AI 安全課程：第一週 - AI 面臨的技術挑戰

本週課程探討 AI 面臨的技術挑戰（the technical challenge with AI）：我們該如何讓AI進行良好的發展?

Feb 26, 2025 2025 AI Safety AI SafetyReading Group

NTU AI Safety 讀書會：第七週 - 機械可解釋性：打開 AI 的黑盒子

本週深入機械可解釋性（Mechanistic Interpretability）領域，探討電路（Circuits）方法、稀疏自編碼器（Sparse Autoencoder）與多語義性（Polysemanticity）問題，以及可解釋性研究對 AI 安全的潛在價值與批判觀點。

Feb 12, 2025 2025 AI Safety AI SafetyReading Group

NTU AI Safety 讀書會：第六週 - 對抗性稳健、機器遺忘與 AI 控制

本週探討如何防止對齊後的 AI 系統被過度優化或產生欺騙行為，介紹三種互補方法：對抗性稳健（Adversarial Robustness）、機器遺忘（Machine Unlearning）與 AI 控制（AI Control）。

Jan 8, 2025 2025 AI Safety AI SafetyReading Group

NTU AI Safety 讀書會：第四週 - RLHF 與憲法式 AI

本週聚焦於讓 AI 對齊人類價值觀的主流技術：從人類反饋強化學習（RLHF）的基礎原理，到 Anthropic 的憲法式 AI（Constitutional AI），以及這些方法的根本限制與開放問題。

Dec 18, 2024 2025 AI Safety AI SafetyReading Group

NTU AI Safety 讀書會：第三週 - AI 對齊問題與潛在風險

本週深入探討 AI 對齊的核心問題：為什麼對齊很困難、AI 可能帶來哪些風險，以及「聖人、應聲蟲與陰謀者」框架如何幫助我們理解未來 AI 系統的行為模式。

Dec 4, 2024 2025 AI Safety AI SafetyReading Group

NTU AI Safety 讀書會：第二週 - 神經網路與深度學習基礎

本週深入探討 AI 系統的基礎技術：神經網路的運作原理、梯度下降學習機制，以及大型語言模型（LLM）的架構，為後續的 AI Safety 討論打下技術基礎。

Nov 27, 2024 2025 AI Safety AI SafetyAlignment

NTU AI Safety 讀書會：第一週 - AI Safety 入門導覽

NTU AI Safety 第二期讀書會正式啟動。本週為開幕週，涵蓋讀書會的緣起與規劃，以及 AI Safety 的入門導覽：AGI/TAI 的定義、強大 AI 帶來的風險、Alignment 的意義，以及讀書會預計介紹的六大研究方向。

Mar 27, 2024 2024 AI Safety RLHFDPO

讀書會第九週：RLHF 前景與挑戰

NTU AI Safety 讀書會第九週，主題為強化學習人類反饋（RLHF）的前景與挑戰。涵蓋 RLHF 概念、挑戰分類（人類反饋、獎勵模型、策略三大類）、DPO（直接偏好最佳化）與 Constitutional AI 等對齊新方法。

Mar 6, 2024 2024 AI Safety GovernanceCompute Governance

讀書會第七週：AI 治理

NTU AI Safety 讀書會第七週，主題為 AI 治理（Governance）。探討政府為何及如何監控 AI 發展、算力治理的可行性與方式，以及透過晶片監控驗證大規模神經網路訓練規則的技術框架。

Feb 28, 2024 2024 AI Safety InterpretabilityMechanistic Interpretability

讀書會第六週：可解釋性

NTU AI Safety 讀書會第六週，主題為可解釋性（Interpretability）。涵蓋機械可解釋性（Mechanistic Interpretability）、ROME 事實定位與編輯方法，以及發展可解釋性（Developmental Interpretability）與相變（Phase Transitions）理論。

Feb 21, 2024 2024 AI Safety Adversarial TrainingDebate

讀書會第五週：對抗性技術與可擴展監督

NTU AI Safety 讀書會第五週，主題為對抗性技術與可擴展監督（Adversarial Techniques for Scalable Oversight）。涵蓋 AI 輔助批評（Debate framework）與非限制性對抗訓練框架（Unrestricted Adversarial Training），包括 Red Teaming 與 Feature-Level Adversaries。

Jan 31, 2024 2024 AI Safety Scalable OversightIterated Amplification

讀書會第四週：任務分解與可擴展監督

NTU AI Safety 讀書會第四週，主題為任務分解與可擴展監督（Task Decomposition for Scalable Oversight）。探討 Sandwiching 評估框架、Iterated Amplification，以及 OpenAI 的弱到強泛化研究。

Jan 24, 2024 2024 AI Safety Goal MisgeneralizationAI Safety

讀書會第三週：目標誤泛化

NTU AI Safety 讀書會第三週，主題為目標誤泛化（Goal Misgeneralization）。探討 AI 系統為何即使在訓練環境中表現正常，部署後仍可能追求非預期目標，並討論其成因、定義與緩解策略。

Jan 3, 2024 2024 AI Safety AGIAI Safety

讀書會第一週：人工通用智慧

NTU AI Safety 讀書會第一週，主題為人工通用智慧（AGI）。介紹 AI Safety 的基本概念，探討深度學習革命與 AGI 的潛在風險。

Jan 1, 2023 General announcement

Welcome to NTUAIS