PagedAttention

Trong:

Mình sẽ viết 1 series các bài để giải thích về ý tưởng của tác giả trong bài báo Efficient Memory Management for Large Language Model Serving with PagedAttention. Tóm tắt ý tưởng: sử dụng cơ chế paging + virtual memory có trong unix kernel vào quá trình inference các mô hình Large Language Model (LLM) họ Transformers.

Dự định series sẽ có 1 số phần:

  1. Tại sao chúng ta cần tối ưu memory cho các hệ thống inference LLM
  2. Các kiến thức cơ bản:
  • Thuật toán BeamSearch
  • Kỹ thuật Batching
  • Cấu trúc Self-Attention
  • LLM service & Autoregressive Generation (K-V Cache)
  1. Về ý tưởng PagedAttention & Implementation
  2. Related works
Great! You’ve successfully signed up.
Welcome back! You've successfully signed in.
You've successfully subscribed to TECHCAVE.VN.
Your link has expired.
Success! Check your email for magic link to sign-in.
Success! Your billing info has been updated.
Your billing was not updated.