KV-Cache
Contents
KV-Cacheยถ
Summaryยถ
KV-Cache๋ Large Language Model (LLM)์์ ์ฌ์ฉ๋๋ ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก, ๋ชจ๋ธ์ด ์ด์ ์ ๊ณ์ฐํ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ์ฌ์ฌ์ฉํ์ฌ ์ถ๋ก ์๊ฐ์ ๋จ์ถํฉ๋๋ค. KV-Cache๋ ๋ชจ๋ธ์ด ์ด์ ์ ๊ณ์ฐํ ํค-๊ฐ ๋ฒกํฐ๋ฅผ ์ ์ฅํ์ฌ ์ถํ์ ๊ณ์ฐ์์ ์ฌ์ฌ์ฉํ ์ ์๋๋ก ํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ํนํ ์ ์ฉํฉ๋๋ค. ๊ทธ๋ฌ๋ KV-Cache๋ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผๅคง้์ผ๋ก ์๋นํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ์ปจํ ์คํธ ํฌ๊ธฐ๋ฅผ ์ ํํ ์ ์์ต๋๋ค.
Key Conceptsยถ
KV-Cache์ ๋ชฉ์ : KV-Cache๋ ๋ชจ๋ธ์ด ์ด์ ์ ๊ณ์ฐํ ํค-๊ฐ ๋ฒกํฐ๋ฅผ ์ ์ฅํ์ฌ ์ถํ์ ๊ณ์ฐ์์ ์ฌ์ฌ์ฉํ ์ ์๋๋ก ํ์ฌ ์ถ๋ก ์๊ฐ์ ๋จ์ถํฉ๋๋ค.
KV-Cache์ ๊ตฌ์กฐ : KV-Cache๋ ๊ฐ ํ ํฐ์ ๋ํด ๊ณ์ฐ๋ ํค-๊ฐ ๋ฒกํฐ๋ฅผ ์ ์ฅํ๋ฉฐ, ๊ฐ ๋ ์ด์ด์ ๊ฐ ํค๋์ ๋ํด ๋ณ๋์ ์บ์๊ฐ ํ์ํฉ๋๋ค.
KV-Cache์ ํฌ๊ธฐ : KV-Cache์ ํฌ๊ธฐ๋ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ์ํ์ค์ ๊ธธ์ด์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ฉฐ, GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผๅคง้์ผ๋ก ์๋นํ ์ ์์ต๋๋ค.
KV-Cache์ ์ต์ ํ : KV-Cache์ ์ต์ ํ๋ฅผ ์ํด ๋ค์ํ ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
Referencesยถ
URL ์ด๋ฆ |
URL |
---|---|
Techniques for KV Cache Optimization |
https://www.omrimallis.com/posts/techniques-for-kv-cache-optimization/ |
SqueezeAttention: 2D Management of KV-Cache in LLM Inference |
|
LLM Jargons Explained: Part 4 - KV Cache |
|
How KV cache is valid in LLM transformer |
|
LLM profiling guides KV cache optimization |
https://www.microsoft.com/en-us/research/blog/llm-profiling-guides-kv-cache-optimization/ |