首页 > 模型 >

爆火论文颠覆RL认知,“错误奖励”让LLM推理暴涨24.6%,学界惊了

28日早的一篇爆火论文,彻底颠覆了人们对「强化学习」的传统认知。仅用随机奖励,甚至是错误答案,也能让AI在数学推理中性能暴涨!来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。地址:https://rethink-rlvr

2025-05-29 07:56:00

热门文章

最新文章