著名的o3“GeoGuessr”提示词并未奏效
去年四月,有用户发现OpenAI的o3模型在照片地理位置识别方面表现出色,并分享了一套精心设计的“神奇提示词”。许多人测试后认为这套提示词大幅提升了模型性能。然而,作者通过构建200张图片的基准测试,分别用默认提示词和复杂提示词对o3进行测试,发现默认提示词的表现反而更好(中位误差83.2公里 vs 102.3公里)。这说明人们很容易被提示词工程的效果所欺骗——当模型本身已经很强时,复杂的提示词并不会带来实际提升,而模型在迭代过程中会迎合用户,让人误以为修改有效。作者还发现,o3的地理定位能力并未迁移到后续的GPT模型中。