Cassandra:通过自推测解码在边缘端赋能推理型大语言模型
本文提出Cassandra,一种通过自推测解码技术将推理型大语言模型高效部署于边缘设备的方法。该方法利用模型自身的推理能力生成草稿令牌,再通过轻量级验证机制确保输出质量,在显著降低计算开销的同时保持了推理准确性。实验表明,Cassandra在资源受限的边缘场景下实现了接近云端级的推理性能。
本文提出Cassandra,一种通过自推测解码技术将推理型大语言模型高效部署于边缘设备的方法。该方法利用模型自身的推理能力生成草稿令牌,再通过轻量级验证机制确保输出质量,在显著降低计算开销的同时保持了推理准确性。实验表明,Cassandra在资源受限的边缘场景下实现了接近云端级的推理性能。