Splitting in LLM
Contents
Splitting in LLMยถ
Summaryยถ
Splitting in LLM์ ํ ์คํธ๋ฅผ ์์ ๋จ์๋ก ๋๋๋ ํ๋ก์ธ์ค๋ฅผ ๋งํฉ๋๋ค. ์ด ํ๋ก์ธ์ค๋ LLM์ด ๋ ํจ๊ณผ์ ์ผ๋ก ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๊ณ ์ดํดํ ์ ์๋๋ก ๋์์ค๋๋ค. ํ ์คํธ๋ฅผ ๋๋๋ ๋ฐฉ๋ฒ์๋ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์์ผ๋ฉฐ, ๋ฌธ์ฅ ๋จ์๋ก ๋๋๋ sentence splitting, ํ ํฐ ์์ ๋ฐ๋ผ ๋๋๋ max token splitting, ๊ทธ๋ฆฌ๊ณ ์๋ฏธ์ ๋ฐ๋ผ ๋๋๋ semantic chunking ๋ฑ์ด ์์ต๋๋ค. ๊ฐ ๋ฐฉ๋ฒ์ ์ฅ๋จ์ ์ด ์์ผ๋ฉฐ, ์ ์ ํ chunking ์ ๋ต์ ์ ํํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
Key Conceptsยถ
Sentence Splitting : ํ ์คํธ๋ฅผ ๋ฌธ์ฅ ๋จ์๋ก ๋๋๋ ๋ฐฉ๋ฒ์ผ๋ก, ๊ฐ ๋ฌธ์ฅ์ด ํ๋์ chunk๊ฐ ๋ฉ๋๋ค.
Max Token Splitting : ํ ์คํธ๋ฅผ ํ ํฐ ์์ ๋ฐ๋ผ ๋๋๋ ๋ฐฉ๋ฒ์ผ๋ก, ๊ฐ chunk๋ ์ต๋ ํ ํฐ ์๋ฅผ ๊ฐ์ง๋๋ค.
Semantic Chunking : ํ ์คํธ๋ฅผ ์๋ฏธ์ ๋ฐ๋ผ ๋๋๋ ๋ฐฉ๋ฒ์ผ๋ก, ๊ฐ chunk๋ ์๋ฏธ์ ์ผ๋ก ๊ด๋ จ๋ ์ ๋ณด๋ฅผ ํฌํจํฉ๋๋ค.
Token-based Splitting : ํ ํฐ ๋จ์๋ก ๋๋๋ ๋ฐฉ๋ฒ์ผ๋ก, LLM์ context window์ ๋ง์ถ์ด chunk๋ฅผ ์์ฑํฉ๋๋ค.
Context-aware Splitting : ๋ฌธ์์ ๊ตฌ์กฐ์ ๊ณ์ธต์ ๊ณ ๋ คํ์ฌ chunk๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ผ๋ก, header ์ ๋ณด๋ฅผ ๋ณด์กดํฉ๋๋ค.
Referencesยถ
URL Name |
URL |
---|---|
RAG Optimisation |
https://www.luminis.eu/blog/rag-optimisation-use-an-llm-to-chunk-your-text-semantically/ |
Mastering RAG |
https://www.rungalileo.io/blog/mastering-rag-advanced-chunking-techniques-for-llm-applications |
Document Splitting |
https://dev.to/rutamstwt/split-conquer-mastering-document-splitting-in-langchain-1154 |
Using an LLM to Split a Text Document |
https://www.reddit.com/r/PromptEngineering/comments/19cruu1/using_an_llm_to_split_a_text_document/ |
Chunking Strategies for LLM Applications |