Skip to content
TopicTracker
来自 gilesthomas.com查看原文
译文语言译文语言

从零开始编写LLM,第32h部分——干预措施:完整的float32精度

本文探讨了在从头训练GPT-2小基础模型时,关闭PyTorch的自动混合精度(AMP)和降低矩阵乘法精度对模型性能的影响。实验结果显示,虽然使用完整的float32精度带来了微小的测试损失改进,但训练时间增加了两倍多,成本增加了三倍,性价比极低。