端侧部署

关注0人关注

我要报错

大语言模型端侧部署的时空相似性加速框架：轻量级预测与流水化执行

随着大语言模型（LLM）在自然语言处理领域的广泛应用，将其部署到端侧设备（如智能手机、物联网设备等）成为研究热点。然而，端侧设备资源受限，如计算能力、内存等，使得大语言模型的直接部署面临巨大挑战。为了解决这一问题，本文提出一种基于时空相似性的加速框架，通过轻量级预测与流水化执行，提高大语言模型在端侧的运行效率。

电子设计自动化
2025-04-23

大语言模型端侧部署