μ„œλ²„ΒΆ

μš”μ•½ΒΆ

LLM(λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ)μ—μ„œ μ„œλ²„λŠ” μ‚¬μš©μž μš”μ²­μ„ μ²˜λ¦¬ν•˜κ³  λͺ¨λΈμ— μ „λ‹¬ν•˜λŠ” 역할을 ν•©λ‹ˆλ‹€. μ„œλ²„λŠ” HTTP/gRPC μš”μ²­μ„ κ΄€λ¦¬ν•˜κ³ , μš”μ²­μ„ 큐에 μ €μž₯ν•˜μ—¬ λͺ¨λΈμ΄ μ²˜λ¦¬ν•  수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€. λ˜ν•œ, μ„œλ²„λŠ” λͺ¨λΈμ˜ μ„±λŠ₯을 μΈ‘μ •ν•˜λŠ” μ§€ν‘œμΈ μ²˜λ¦¬λŸ‰(throughput)κ³Ό μ§€μ—° μ‹œκ°„(latency)을 μ œκ³΅ν•©λ‹ˆλ‹€. μ„œλ²„λŠ” λ‹€μ–‘ν•œ ν”„λ ˆμž„μ›Œν¬μ™€ ν•¨κ»˜ μ‚¬μš©λ  수 있으며, λͺ¨λΈμ„ 효율적으둜 λ°°ν¬ν•˜κ³  κ΄€λ¦¬ν•˜λŠ” 데 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.

μ£Όμš” κ°œλ…ΒΆ

  • μ„œλ²„ μ—­ν•  : μ‚¬μš©μž μš”μ²­μ„ μ²˜λ¦¬ν•˜κ³  λͺ¨λΈμ— μ „λ‹¬ν•˜λŠ” 역할을 ν•©λ‹ˆλ‹€.

  • μš”μ²­ 큐 : μ‚¬μš©μž μš”μ²­μ„ μ €μž₯ν•˜μ—¬ λͺ¨λΈμ΄ μ²˜λ¦¬ν•  수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€.

  • μ²˜λ¦¬λŸ‰(throughput) : λͺ¨λΈμ΄ μ²˜λ¦¬ν•  수 μžˆλŠ” μš”μ²­μ˜ 수λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

  • μ§€μ—° μ‹œκ°„(latency) : λͺ¨λΈμ΄ μš”μ²­μ„ μ²˜λ¦¬ν•˜λŠ” 데 κ±Έλ¦¬λŠ” μ‹œκ°„μ„ λ‚˜νƒ€λƒ…λ‹ˆλ‹€.

  • 배치 처리 : μ—¬λŸ¬ μš”μ²­μ„ ν•œ λ²ˆμ— μ²˜λ¦¬ν•˜μ—¬ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€.