Blog

Posts

Research notes, course summaries, and perspectives from the NTUAIS community.

Category

2026 W1 - AI Safety 面臨的技挑戰 (Challenge of AI Safety)

本週讀書會聚焦於 AI 面臨的技術挑戰(The Technical Challenge with AI),並分為兩個 track 進行討論。在 Fundamental and Policy track 中,我們介紹了 AI safety 在技術層面的核心挑戰,並進一步討論 AI 對齊可能帶來的潛在影響與風險。而在 Technical Paper Reading track,我們透過閱讀經典論文,理解 AI safety 在研究上關注的關鍵問題與問題定義方式,並延伸討論 trustworthy AI 的相關研究方向。

Read more →

技術性 AI 安全課程:第六週 - 你的下一步

你正站在 AI 安全技術旅程的起點。本週課程整理了 AI 安全技術的全貌,並提供具體的職涯建議與行動計畫,協助你找到適合自己的貢獻方式。

Read more →

技術性 AI 安全課程:第五週 - 假設傷害會發生

本週課程探討 AI 系統可能造成的災難性風險(如幫助惡意行為者或意外失控),以及我們如何透過威脅建模與防禦策略來降低這些風險。

Read more →

技術性 AI 安全課程:第四週 - AI 是怎麼思考的?

本週課程探討機械式可解釋性(Mechanistic Interpretability):嘗試逆向工程 AI 模型以理解其內部運作,就像神經科學家研究大腦一樣。

Read more →

技術性 AI 安全課程:第三週 - 如何偵測危險

本週課程探討如何評估AI是否真的安全,並練習分析於現有的AI公司

Read more →

技術性 AI 安全課程:第二週 - AI 面臨的技術挑戰

本週課程探討 AI 面臨的技術挑戰(the technical challenge with AI):我們該如何讓AI進行良好的發展?

Read more →

技術性 AI 安全課程:第一週 - AI 面臨的技術挑戰

本週課程探討 AI 面臨的技術挑戰(the technical challenge with AI):我們該如何讓AI進行良好的發展?

Read more →

NTU AI Safety 讀書會:第七週 - 機械可解釋性:打開 AI 的黑盒子

本週深入機械可解釋性(Mechanistic Interpretability)領域,探討電路(Circuits)方法、稀疏自編碼器(Sparse Autoencoder)與多語義性(Polysemanticity)問題,以及可解釋性研究對 AI 安全的潛在價值與批判觀點。

Read more →

NTU AI Safety 讀書會:第六週 - 對抗性稳健、機器遺忘與 AI 控制

本週探討如何防止對齊後的 AI 系統被過度優化或產生欺騙行為,介紹三種互補方法:對抗性稳健(Adversarial Robustness)、機器遺忘(Machine Unlearning)與 AI 控制(AI Control)。

Read more →

NTU AI Safety 讀書會:第四週 - RLHF 與憲法式 AI

本週聚焦於讓 AI 對齊人類價值觀的主流技術:從人類反饋強化學習(RLHF)的基礎原理,到 Anthropic 的憲法式 AI(Constitutional AI),以及這些方法的根本限制與開放問題。

Read more →

NTU AI Safety 讀書會:第三週 - AI 對齊問題與潛在風險

本週深入探討 AI 對齊的核心問題:為什麼對齊很困難、AI 可能帶來哪些風險,以及「聖人、應聲蟲與陰謀者」框架如何幫助我們理解未來 AI 系統的行為模式。

Read more →

NTU AI Safety 讀書會:第二週 - 神經網路與深度學習基礎

本週深入探討 AI 系統的基礎技術:神經網路的運作原理、梯度下降學習機制,以及大型語言模型(LLM)的架構,為後續的 AI Safety 討論打下技術基礎。

Read more →

NTU AI Safety 讀書會:第一週 - AI Safety 入門導覽

NTU AI Safety 第二期讀書會正式啟動。本週為開幕週,涵蓋讀書會的緣起與規劃,以及 AI Safety 的入門導覽:AGI/TAI 的定義、強大 AI 帶來的風險、Alignment 的意義,以及讀書會預計介紹的六大研究方向。

Read more →

讀書會第九週:RLHF 前景與挑戰

NTU AI Safety 讀書會第九週,主題為強化學習人類反饋(RLHF)的前景與挑戰。涵蓋 RLHF 概念、挑戰分類(人類反饋、獎勵模型、策略三大類)、DPO(直接偏好最佳化)與 Constitutional AI 等對齊新方法。

Read more →

讀書會第七週:AI 治理

NTU AI Safety 讀書會第七週,主題為 AI 治理(Governance)。探討政府為何及如何監控 AI 發展、算力治理的可行性與方式,以及透過晶片監控驗證大規模神經網路訓練規則的技術框架。

Read more →

讀書會第六週:可解釋性

NTU AI Safety 讀書會第六週,主題為可解釋性(Interpretability)。涵蓋機械可解釋性(Mechanistic Interpretability)、ROME 事實定位與編輯方法,以及發展可解釋性(Developmental Interpretability)與相變(Phase Transitions)理論。

Read more →

讀書會第五週:對抗性技術與可擴展監督

NTU AI Safety 讀書會第五週,主題為對抗性技術與可擴展監督(Adversarial Techniques for Scalable Oversight)。涵蓋 AI 輔助批評(Debate framework)與非限制性對抗訓練框架(Unrestricted Adversarial Training),包括 Red Teaming 與 Feature-Level Adversaries。

Read more →

讀書會第四週:任務分解與可擴展監督

NTU AI Safety 讀書會第四週,主題為任務分解與可擴展監督(Task Decomposition for Scalable Oversight)。探討 Sandwiching 評估框架、Iterated Amplification,以及 OpenAI 的弱到強泛化研究。

Read more →

讀書會第三週:目標誤泛化

NTU AI Safety 讀書會第三週,主題為目標誤泛化(Goal Misgeneralization)。探討 AI 系統為何即使在訓練環境中表現正常,部署後仍可能追求非預期目標,並討論其成因、定義與緩解策略。

Read more →

讀書會第一週:人工通用智慧

NTU AI Safety 讀書會第一週,主題為人工通用智慧(AGI)。介紹 AI Safety 的基本概念,探討深度學習革命與 AGI 的潛在風險。

Read more →

Welcome to NTUAIS

Read more →