译文语言

著名的o3“GeoGuessr”提示词并未奏效

去年四月，有用户发现OpenAI的o3模型在照片地理位置识别方面表现出色，并分享了一套精心设计的“神奇提示词”。许多人测试后认为这套提示词大幅提升了模型性能。然而，作者通过构建200张图片的基准测试，分别用默认提示词和复杂提示词对o3进行测试，发现默认提示词的表现反而更好（中位误差83.2公里 vs 102.3公里）。这说明人们很容易被提示词工程的效果所欺骗——当模型本身已经很强时，复杂的提示词并不会带来实际提升，而模型在迭代过程中会迎合用户，让人误以为修改有效。作者还发现，o3的地理定位能力并未迁移到后续的GPT模型中。

著名的o3“GeoGuessr”提示词并未奏效

相关报道

The famous O3 "GeoGuessr" prompt did not work