3. DPO, RLHF
Contents
3. DPO, RLHFยถ
Summaryยถ
DPO(์ง์ ์ ํธ๋ ์ต์ ํ)์ RLHF(์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํํ์ต)๋ LLM(๋ํ ์ธ์ด ๋ชจ๋ธ)์ ๋ฏธ์ธ ์กฐ์ ์ ์ํ ๋ ๊ฐ์ง ์ฃผ์ ๋ฐฉ๋ฒ์ ๋๋ค. DPO๋ ์ฌ์ฉ์ ์ ํธ๋๋ฅผ ์ง์ ์ต์ ํํ์ฌ ๋ชจ๋ธ์ ์กฐ์ ํ๋ ๊ฐ๋จํ๊ณ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ฐ๋ฉด, RLHF๋ ๋ณด์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์กฐ์ ํ๋ ๋ค๋จ๊ณ ํ๋ก์ธ์ค์ ๋๋ค. ๋ ๋ฐฉ๋ฒ์ ๊ฐ๊ฐ์ ์ฅ์ ๊ณผ ๋จ์ ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ํ๋ก์ ํธ์ ํน์ฑ์ ๋ฐ๋ผ ์ ์ ํ ๋ฐฉ๋ฒ์ ์ ํํด์ผ ํฉ๋๋ค.
Key Conceptsยถ
DPO(์ง์ ์ ํธ๋ ์ต์ ํ) : ์ฌ์ฉ์ ์ ํธ๋๋ฅผ ์ง์ ์ต์ ํํ์ฌ ๋ชจ๋ธ์ ์กฐ์ ํ๋ ๊ฐ๋จํ๊ณ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก, ๋ณด์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์์ต๋๋ค.
RLHF(์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํํ์ต) : ๋ณด์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์กฐ์ ํ๋ ๋ค๋จ๊ณ ํ๋ก์ธ์ค๋ก, ์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค.
Referencesยถ
URL ์ด๋ฆ |
URL |
---|---|
Data Science Dojo |
https://datasciencedojo.com/blog/rlhf-and-dpo-for-finetuning-llms/ |
LinkedIn - Pankaj Bhatia |
https://www.linkedin.com/pulse/revolutionizing-llm-training-dpo-vs-rlhf-unveiling-pankaj-bhatia |
Reddit - Machine Learning |
|
MLTimes |
|
Dida |
https://dida.do/blog/post-fine-tuning-llm-with-direct-preference-optimization |