谷歌AI掌舵人Jeff Dean點贊了一項新研究,還是出自清華姚班校友鐘沛林團隊之手。
Nested Learning嵌套學習,給出了大語言模型災難性遺忘這一問題的最新答案!
簡單來說,Nested Learning(下稱NL)就是讓模型從扁平的計算網,變成像人腦一樣有層次、能自我調整的學習系統。
論文里還提到,甚至人們常用的Transformer,其實本質是NL的簡化版,它只是把NL的多層級拆成了單一層級的線性層,并沒發揮出多層級的優勢。
基于NL范式的Hope模型,在語言建模任務和長上下文記憶任務中的表現均優于Transformer,且論文已經被NeurIPS 2025接收。
下面就來看看這個新范式,究竟突破在何處?
不再靠堆層、堆參數硬提升
Nested Learning的核心邏輯很明確,即復雜AI模型不是“固定架構+獨立算法”的組合,而是由多個嵌套/并行的「優化問題」構成的系統
在大語言模型領域,一個核心痛點始終制約著技術突破,那就是模型仿佛患上了順行性遺忘癥。
預訓練完成后便難以持續吸收新知識,只能依賴有限的上下文窗口或固化的歷史參數,無法像人類一樣實現知識的動態積累與迭代。
與此同時,傳統深度學習依賴的堆層擴參模式也逐漸觸及瓶頸,增加網絡層數或放大模型規模往往無法帶來預期中的能力提升,甚至可能導致訓練低效、泛化能力不足等問題。