8. Security - Hacking & Guardrails in LLM
Contents
8. Security - Hacking & Guardrails in LLMยถ
Summaryยถ
LLM guardrails๋ AI ์์คํ ์ ํ๋๊ณผ ์ถ๋ ฅ์ ์ ์ดํ๊ธฐ ์ํ ์ฌ์ ์ ์๋ ํ๋กํ ์ฝ, ๊ท์น, ๋ฐ ์ ํ ์ฌํญ์ ์งํฉ์ ๋๋ค. ์ด๋ค์ AI ์ํํธ์จ์ด๊ฐ ์ค๋ฆฌ์ ๊ธฐ์ค์ ์ถฉ์กฑํ๋๋ก ๋ณด์ฅํ๋ ์์ ๋ฉ์ปค๋์ฆ์ผ๋ก ์๋ํ๋ฉฐ, AI ๊ฐ๋ฐ ๊ณผ์ ์์ ๋ฒ์ ์ค์, ๊ฐ์ธ ์ ๋ณด ๋ณดํธ, ์ค๋ฆฌ์ ๊ณ ๋ ค ์ฌํญ, ๊ทธ๋ฆฌ๊ณ ์์ ๋ฐ ๋ณด์์ ๊ฐํํฉ๋๋ค. ๋ํ, LLM guardrails๋ AI ์์คํ ์ด ์ ์์ ์ธ ์ ๋ ฅ์ด๋ ์ถ๋ ฅ์ ๋ฐฉ์งํ๊ณ , ์ฌ์ฉ์์ ๊ฐ๋ฐ์๊ฐ AI์ ๋์์ ์ดํดํ๊ณ ์ ๋ขฐํ ์ ์๋๋ก ๋์์ค๋๋ค.
Key Conceptsยถ
LLM Guardrails : AI ์์คํ ์ ํ๋๊ณผ ์ถ๋ ฅ์ ์ ์ดํ๊ธฐ ์ํ ์ฌ์ ์ ์๋ ํ๋กํ ์ฝ, ๊ท์น, ๋ฐ ์ ํ ์ฌํญ์ ์งํฉ์ผ๋ก, AI ์ํํธ์จ์ด๊ฐ ์ค๋ฆฌ์ ๊ธฐ์ค์ ์ถฉ์กฑํ๋๋ก ๋ณด์ฅํ๋ ์์ ๋ฉ์ปค๋์ฆ์ ๋๋ค.
Guardrail Types : Adaptive Guardrails, Input Validation, Output Filtering, Legal Compliance, Privacy Preservation, Ethical Considerations, Safety and Security ๋ฑ ๋ค์ํ ์ ํ์ guardrails์ด ์กด์ฌํ๋ฉฐ, ๊ฐ๊ฐ AI ์์คํ ์ ํน์ ํ ์ํ์ ์ํํ๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค.
Implementation : Guardrails AI, NVIDIA์ NeMo Guardrails, Amazon Bedrock Guardrails ๋ฑ ๋ค์ํ ํ๋ ์์ํฌ์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ LLM guardrails์ ๊ตฌํํ ์ ์์ต๋๋ค.
Hacking and Bypass Techniques : ์ ์์ ์ธ ์ฌ์ฉ์๊ฐ LLM guardrails์ ์ฐํํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ๋ค์ํ ๊ธฐ์ ์ด ์กด์ฌํ๋ฉฐ, ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ง์์ ์ธ ๋ชจ๋ํฐ๋ง๊ณผ ๋ณด์ ์ ๋ฐ์ดํธ๊ฐ ํ์ํฉ๋๋ค.
Referencesยถ
URL Name |
URL |
---|---|
Heavybit - LLM Guardrails |
https://www.heavybit.com/library/article/how-llm-guardrails-reduce-ai-risk-in-software-development |
AWS - Building Safe and Responsible Generative AI Applications with Guardrails |
|
YouTube - Attacking AI |
Bypass Guardrails |
Towards Data Science - Safeguarding LLMs with Guardrails |
https://towardsdatascience.com/safeguarding-llms-with-guardrails-4f5d9f57cff2 |
Neptune.ai - LLM Guardrails: Secure and Controllable Deployment |