Mình sẽ viết 1 series các bài để giải thích về ý tưởng của tác giả trong bài báo Efficient Memory Management for Large Language Model Serving with PagedAttention. Tóm tắt ý tưởng: sử dụng cơ chế paging + virtual memory có trong unix kernel vào quá trình inference các mô hình Large Language Model (LLM) họ Transformers.
Dự định series sẽ có 1 số phần:
- Tại sao chúng ta cần tối ưu memory cho các hệ thống inference LLM
- Các kiến thức cơ bản:
- Thuật toán BeamSearch
- Kỹ thuật Batching
- Cấu trúc Self-Attention
- LLM service & Autoregressive Generation (K-V Cache)
- Về ý tưởng PagedAttention & Implementation
- Related works