译文语言

我们如何评估基于LLM的评判系统

本文介绍了一种基于扰动的方法来评估LLM评判系统的可靠性。通过系统性地对输入进行微小扰动（如修改措辞、调整上下文等），作者能够测试LLM评判在不同变异下的稳定性与一致性。这种方法帮助团队识别评判系统的盲点，确保LLM评判在面对真实世界中多样化输入时的鲁棒性。

相关报道