如何輕鬆掌握 Web3 產業正在發生的市場熱點、技術動向、生態進展、治理態勢…? Web3Caff Research 推出的「市場風向洞察」專欄將深入第一線探尋並篩選當前發生的熱點事件,並進行價值解讀、評論與原則分析。透過現像看本質,即刻跟隨我們快速捕捉 Web3 一線市場風向。
作者:Hendrix,Web3Caff Research 研究員
封面:Logo from this project,Typography by Web3Caff Research
字數:全文共 2500+ 字
2025 年初,Deepseek 的爆發為 AI 產業帶來了深刻變革,促使各大公司重新審視強化學習(Reinforcement Learning, RL)在推理模型(Reasoning Model)訓練中的巨大潛力。與一般模型直接產生答案不同,以 Deepseek-R1 為代表的推理模型在接收問題後,會透過思考、規劃和推理,將複雜問題拆解為多個步驟逐一解決。這種能力源自於強化學習在訓練過程中幫助基礎模型掌握任務拆解的技巧。由此,模型訓練範式發生顯著轉變,主流基礎模型服務商紛紛引入強化學習環節,以提升模型輸出品質。