定性結果表(biǎo )明,在 SFT 和 d1-LLaDA 生(shēng )成(chéng )中出現了(le )頓悟時刻(kè )。盡管與 LLaDA-8B-Instruct 相比,生成序列長度為(wéi ) 128 和 256 的性能隨著 SFT、diffu-GRPO 和 d1 有(yǒu )所提高,但(dàn )從質的方面看,在生成的推理軌跡中并未觀(guān )察到顯著差異(yì )。然而當序列(liè )長度達(dá )到 512 時,該研究(jiū )開始觀察到 SFT 和 d1-LLaDA 模型展現(xiàn )出兩種關(guān )鍵能力:自(zì )我修正機制和回溯行為。
版權所有 ? 2025 青龍影院 保留所有權利