自回歸(AR)大語言模型逐 token 順序解碼的范式限制了推理效率;擴散 LLM(dLLM)以并行生成見長,但過去難以穩定跑贏自回歸(AR)模型,尤其是在 KV Cache 復用、和 可變長度 支持上仍存挑戰。
Fast-dLLM v2給出了一條務實路線:將預訓練 AR 模型適配為適配為能并行解碼的 Block-dLLM—— 且只需~1B tokens 量級的微調即可達到 “無損” 遷移,不必訓練數百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同時,將端到端吞吐顯著拉高,最高可達 2.5×
