DistServe、POD-Attention 和 Drift三篇论文分别通过物理拆分、内核融合和空间复用三种不同策略,针对大模型推理中的“预填充(prefill)”与“解码(decode)”两个阶段的资源竞争与干扰,提出了差异化的调度与内核设计,从而在满足延迟 SLO 的前提下显著提升 GPU 资源利用率与系统吞吐。
DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving (OSDI’24)
其他相关的paper,有空继续看:
Fast State Restoration in LLM Serving with HCache(对KV cache的空间占用做了优化。如果P/D的资源抢占是内存不够,这个似乎有用)
感觉PD分离的资源竞争问题,可以借鉴分布式的空分共享啊?什么MPS, MIG,如何划分资源之类的。