Posts
Research notes, course summaries, and perspectives from the NTUAIS community.
技術性 AI 安全課程:第六週 - 你的下一步
你正站在 AI 安全技術旅程的起點。本週課程整理了 AI 安全技術的全貌,並提供具體的職涯建議與行動計畫,協助你找到適合自己的貢獻方式。
Read more →技術性 AI 安全課程:第五週 - 假設傷害會發生
本週課程探討 AI 系統可能造成的災難性風險(如幫助惡意行為者或意外失控),以及我們如何透過威脅建模與防禦策略來降低這些風險。
Read more →技術性 AI 安全課程:第四週 - AI 是怎麼思考的?
本週課程探討機械式可解釋性(Mechanistic Interpretability):嘗試逆向工程 AI 模型以理解其內部運作,就像神經科學家研究大腦一樣。
Read more →技術性 AI 安全課程:第一週 - AI 面臨的技術挑戰
本週課程探討 AI 面臨的技術挑戰(the technical challenge with AI):我們該如何讓AI進行良好的發展?
Read more →NTU AI Safety 讀書會:第七週 - 機械可解釋性:打開 AI 的黑盒子
本週深入機械可解釋性(Mechanistic Interpretability)領域,探討電路(Circuits)方法、稀疏自編碼器(Sparse Autoencoder)與多語義性(Polysemanticity)問題,以及可解釋性研究對 AI 安全的潛在價值與批判觀點。
Read more →NTU AI Safety 讀書會:第六週 - 對抗性稳健、機器遺忘與 AI 控制
本週探討如何防止對齊後的 AI 系統被過度優化或產生欺騙行為,介紹三種互補方法:對抗性稳健(Adversarial Robustness)、機器遺忘(Machine Unlearning)與 AI 控制(AI Control)。
Read more →NTU AI Safety 讀書會:第四週 - RLHF 與憲法式 AI
本週聚焦於讓 AI 對齊人類價值觀的主流技術:從人類反饋強化學習(RLHF)的基礎原理,到 Anthropic 的憲法式 AI(Constitutional AI),以及這些方法的根本限制與開放問題。
Read more →NTU AI Safety 讀書會:第三週 - AI 對齊問題與潛在風險
本週深入探討 AI 對齊的核心問題:為什麼對齊很困難、AI 可能帶來哪些風險,以及「聖人、應聲蟲與陰謀者」框架如何幫助我們理解未來 AI 系統的行為模式。
Read more →NTU AI Safety 讀書會:第二週 - 神經網路與深度學習基礎
本週深入探討 AI 系統的基礎技術:神經網路的運作原理、梯度下降學習機制,以及大型語言模型(LLM)的架構,為後續的 AI Safety 討論打下技術基礎。
Read more →NTU AI Safety 讀書會:第一週 - AI Safety 入門導覽
NTU AI Safety 第二期讀書會正式啟動。本週為開幕週,涵蓋讀書會的緣起與規劃,以及 AI Safety 的入門導覽:AGI/TAI 的定義、強大 AI 帶來的風險、Alignment 的意義,以及讀書會預計介紹的六大研究方向。
Read more →讀書會第九週:RLHF 前景與挑戰
NTU AI Safety 讀書會第九週,主題為強化學習人類反饋(RLHF)的前景與挑戰。涵蓋 RLHF 概念、挑戰分類(人類反饋、獎勵模型、策略三大類)、DPO(直接偏好最佳化)與 Constitutional AI 等對齊新方法。
Read more →讀書會第七週:AI 治理
NTU AI Safety 讀書會第七週,主題為 AI 治理(Governance)。探討政府為何及如何監控 AI 發展、算力治理的可行性與方式,以及透過晶片監控驗證大規模神經網路訓練規則的技術框架。
Read more →讀書會第六週:可解釋性
NTU AI Safety 讀書會第六週,主題為可解釋性(Interpretability)。涵蓋機械可解釋性(Mechanistic Interpretability)、ROME 事實定位與編輯方法,以及發展可解釋性(Developmental Interpretability)與相變(Phase Transitions)理論。
Read more →讀書會第五週:對抗性技術與可擴展監督
NTU AI Safety 讀書會第五週,主題為對抗性技術與可擴展監督(Adversarial Techniques for Scalable Oversight)。涵蓋 AI 輔助批評(Debate framework)與非限制性對抗訓練框架(Unrestricted Adversarial Training),包括 Red Teaming 與 Feature-Level Adversaries。
Read more →讀書會第四週:任務分解與可擴展監督
NTU AI Safety 讀書會第四週,主題為任務分解與可擴展監督(Task Decomposition for Scalable Oversight)。探討 Sandwiching 評估框架、Iterated Amplification,以及 OpenAI 的弱到強泛化研究。
Read more →讀書會第三週:目標誤泛化
NTU AI Safety 讀書會第三週,主題為目標誤泛化(Goal Misgeneralization)。探討 AI 系統為何即使在訓練環境中表現正常,部署後仍可能追求非預期目標,並討論其成因、定義與緩解策略。
Read more →讀書會第一週:人工通用智慧
NTU AI Safety 讀書會第一週,主題為人工通用智慧(AGI)。介紹 AI Safety 的基本概念,探討深度學習革命與 AGI 的潛在風險。
Read more →