PagedAttention

Mình sẽ viết 1 series các bài để giải thích về ý tưởng của tác giả trong bài báo Efficient Memory Management for Large Language Model Serving with PagedAttention. Tóm tắt ý tưởng: sử dụng cơ chế paging + virtual memory có trong unix kernel vào quá trình inference các mô hình Large Language Model (LLM) họ Transformers.

Dự định series sẽ có 1 số phần:

Tại sao chúng ta cần tối ưu memory cho các hệ thống inference LLM
Các kiến thức cơ bản:

Thuật toán BeamSearch
Kỹ thuật Batching
Cấu trúc Self-Attention
LLM service & Autoregressive Generation (K-V Cache)

Về ý tưởng PagedAttention & Implementation
Related works

PagedAttention

Trần Mạnh Đạt