本文作者:10000lamps

哈佛新采样算法,基础模型比肩训练版本,无需强化学习也能实现高效推理

10000lamps 2025-10-22 19:15:34 18 抢沙发
哈佛最新采样算法能够在不使用强化学习的情况下实现推理能力,使得基础模型的性能堪比经过GRPO训练后的版本,该算法通过优化采样策略,提升了模型的效率和准确性,展现出强大的潜力,这一发现可能会改变机器学习领域的研究方向,为未来的模型开发提供新的思路和方法。

强化学习在提升大模型推理能力方面确实展现出了强大的潜力,但并非所有情况下都必需,哈佛大学的一项研究探索了能否仅通过采样,而不使用任何额外的训练,让基础模型表现出推理能力,他们提出了一种利用基础模型自身似然度的简单迭代采样算法,并证明了这种方法在多个基础模型上都能大幅提升推理能力。 该算法基于分布锐化概念,通过幂分布进行采样,从而鼓励模型选择那些具有较少但似然度更高的“未来路径”的token,而不是那些具有多个较低似然度完成可能的token,这种行为对于推理任务非常有价值,因为它有助于模型在推理时规划未来的高似然度token。 为了从未归一化的幂分布中进行采样,该团队采用了Metropolis-Hastings算法,这是一种马尔可夫链蒙特卡洛方法,能够从未归一化的概率分布中近似采样,通过一系列中间分布,该算法逐步采样,直到收敛到目标分布,从而避免了病态的初始化问题。 实验结果表明,该算法在各种推理和评估任务上,相对于不同基线都实现了显著的准确度提升,特别地,在MATH500这个强化学习后训练的领域内任务上,幂采样实现的准确度与GRPO获得的准确度相当,甚至在某些情况下超越了GRPO,幂采样在不可验证的AlpacaEval 2.0上也稳定地优于基线,这表明新算法带来的性能提升可以推广到可验证性之外的领域。 这项研究凸显了现有基础模型潜藏的推理能力,提供了一种无需重新训练模型、成本可控的性能提升方案,通过增加MCMC的迭代步数,可以换取更高的准确率,且算法对关键超参数的选择相对稳健,这使得它在实际应用中更容易部署和调优,尽管增加了推理时的计算量,但其总成本大致只相当于进行一轮GRPO训练,因此具有可行性。


本文标签属性:

哈佛新采样算法:哈佛新采样算法是什么

基础模型高效推理:基础模型高效推理是什么

文章版权及转载声明

作者:10000lamps本文地址:http://www.10000lamps.cn/post/16.html发布于 2025-10-22 19:15:34
文章转载或复制请以超链接形式并注明出处新华经济网

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,18人围观)参与讨论

还没有评论,来说两句吧...