大语言模型的推理加速方案

介绍了大语言模型的推理加速方案,LLM inference原理,加速优化,量化。