译文语言

RLVR可能在科学领域表现尤为不佳

理论验证循环的周期可能长达数十年甚至数百年，即便到了今天，我们也知道更优的理论往往反而会做出更糟的预测。这意味着基于强化学习的验证方法（RLVR）在科学领域的应用可能面临根本性挑战，因为科学理论的验证周期过长，且优质理论短期预测效果可能更差。