为何长期训练未减缓AI进步?
本文探讨了一个反直觉的现象:尽管AI训练的时间跨度越来越长(从短期任务扩展到需要累积推理的复杂问题),但AI进步速度并未因此放缓。作者分析认为,这是因为硬件效率提升、算法优化和规模化收益抵消了长周期训练带来的"信用分配"难题。文章从深度强化学习和大型语言模型的角度切入,解释了为什么更长的时间跨度反而可能成为加速突破的契机。
本文探讨了一个反直觉的现象:尽管AI训练的时间跨度越来越长(从短期任务扩展到需要累积推理的复杂问题),但AI进步速度并未因此放缓。作者分析认为,这是因为硬件效率提升、算法优化和规模化收益抵消了长周期训练带来的"信用分配"难题。文章从深度强化学习和大型语言模型的角度切入,解释了为什么更长的时间跨度反而可能成为加速突破的契机。
AI progress hasn't slowed despite longer training horizons, possibly due to huge FLOP efficiency gains from fixing bugs, unreliable human intuitions about near-human intelligence, and capabilities depending on traits beyond intelligence like persistence.
Andrew Ng ranks coding agent acceleration from most to least effective: frontend development (dramatically sped up), backend (slower due to bugs and security), infrastructure (limited due to complex tradeoffs), and research (marginal help beyond coding). He uses this categorization to adjust team expectations and organization.