如何轻松掌握 Web3 行业正在发生的市场热点、技术动向、生态进展、治理态势…? Web3Caff Research 推出的「市场风向洞察」栏目将深入一线探寻并筛选当前发生的热点事件,并进行价值解读、点评与原理分析。透过现象看本质,即刻跟随我们快速捕获 Web3 一线市场风向。
作者:Hendrix,Web3Caff Research 研究员
封面:Logo from this project,Typography by Web3Caff Research
字数:全文共计 2500+ 字
2025 年初,Deepseek 的爆发为 AI 行业带来了深刻变革,促使各大公司重新审视强化学习(Reinforcement Learning, RL)在推理模型(Reasoning Model)训练中的巨大潜力。与通用模型直接生成答案不同,以 Deepseek-R1 为代表的推理模型在接收问题后,会通过思考、规划和推理,将复杂问题拆解为多个步骤逐一解决。这种能力源于强化学习在训练过程中帮助基础模型掌握任务拆解的技巧。由此,模型训练范式发生显著转变,主流基础模型服务商纷纷引入强化学习环节,以提升模型输出质量。