1. Transformer ์ํคํ ์ณ
Contents
1. Transformer ์ํคํ ์ณยถ
Summaryยถ
Transformer ์ํคํ ์ณ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ํ ์ ํ์ผ๋ก, ์ฃผ๋ก ์์ฐ์ด ์ฒ๋ฆฌ(NLP)์์ ์ฌ์ฉ๋ฉ๋๋ค. ์ด ์ํคํ ์ณ๋ ์ธ์ฝ๋(Encoder)์ ๋์ฝ๋(Decoder) ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์ธ์ฝ๋๋ ์ ๋ ฅ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ์ฌ ์ปจํ ์คํธ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ , ๋์ฝ๋๋ ์ด ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ์ถ๋ ฅ ํ ์คํธ๋ฅผ ์์ฑํฉ๋๋ค. Transformer๋ ๊ธฐ์กด์ ์ํ ์ ๊ฒฝ๋ง(RNN)๊ณผ ๋ฌ๋ฆฌ, ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ์ฌ ํ์ต ์๋๊ฐ ๋น ๋ฅด๊ณ , ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
Key Conceptsยถ
์ธ์ฝ๋(Encoder) : ์ ๋ ฅ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ์ฌ ์ปจํ ์คํธ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๋ถ๋ถ์ ๋๋ค.
๋์ฝ๋(Decoder) : ์ธ์ฝ๋์์ ์ถ์ถํ ์ปจํ ์คํธ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ์ถ๋ ฅ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ถ๋ถ์ ๋๋ค.
์ ํ-์ดํ ์ (self-attention) : ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ฐ ์์๊ฐ ๋ค๋ฅธ ๋ชจ๋ ์์์์ ๊ด๊ณ๋ฅผ ๊ณ ๋ คํ์ฌ ์ฒ๋ฆฌํ๋ ๋ฉ์ปค๋์ฆ์ ๋๋ค.
ํฌ์ง์ ๋ ์ธ์ฝ๋ฉ(positional encoding) : ์ ๋ ฅ ๋ฐ์ดํฐ์ ์์ ์ ๋ณด๋ฅผ ์ถ๊ฐํ์ฌ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
๋ ์ด์ด ๋ ธ๋ฉ๋ผ์ด์ ์ด์ (layer normalization) : ๊ฐ ๋ ์ด์ด์ ์ถ๋ ฅ์ ์ ๊ทํํ์ฌ ํ์ต์ ์์ ์ฑ์ ํฅ์์ํค๋ ๊ธฐ๋ฒ์ ๋๋ค.
Referencesยถ
URL ์ด๋ฆ |
URL |
---|---|
DataCamp - How Transformers Work |
|
TrueFoundry - Transformer Architecture |
|
MLQ.ai - Understanding Transformers & the Architecture of LLMs |
|
Wikipedia - Transformer (deep learning architecture) |
https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture) |
YouTube - LLM Chronicles #5.1: The Transformer Architecture |