본 논문은 온라인 LLM(Large Language Model) 추론 시스템에서 발생하는 GPU 메모리 부족 문제를 해결하기 위해 CPU 오프로딩 기술을 활용한 NEO 시스템을 제안합니다.
최근 대규모 언어 모델(LLM)은 챗봇, 자동 에이전트, 프로그래밍 보조 도구 등 다양한 온라인 애플리케이션에 활용되고 있습니다. 온라인 LLM 추론은 사용자와 직접 상호 작용하기 때문에 몰입감 있는 경험을 위해 낮은 지연 시간과 높은 처리량이 요구됩니다. 하지만 LLM 모델의 크기가 증가함에 따라 GPU 메모리 부족 현상이 발생하고, 이는 처리량 저하의 주요 원인이 됩니다.
NEO는 비대칭 GPU-CPU 파이프라이닝 및 부하 인식 스케줄링이라는 두 가지 핵심 기술을 사용하여 GPU 메모리 부족 문제를 해결합니다.
NEO는 추론 요청을 두 개의 하위 배치로 나누어 처리합니다. 하나의 하위 배치는 GPU에서 실행되고, 다른 하위 배치는 디코딩 어텐션 연산 및 KV 캐시를 CPU로 오프로드하여 실행됩니다. 이러한 비대칭 파이프라이닝을 통해 GPU 및 CPU의 로드를 효과적으로 분산하고 전체 처리량을 향상시킵니다.
NEO 스케줄러는 들어오는 요청을 GPU 또는 CPU 중 어디에서 실행할지 동적으로 결정하여 두 하드웨어 리소스를 모두 효율적으로 활용합니다. 이는 GPU 및 CPU의 처리량 차이, 요청의 입력/출력 길이 변동 등을 고려하여 최적의 성능을 달성하도록 설계되었습니다.
NEO는 다양한 워크로드, LLM 모델, 하드웨어 플랫폼에서 평가되었으며, 기존 GPU 전용 시스템 대비 최대 7.5배 높은 처리량을 달성했습니다. 특히, 저사양 GPU 환경에서 높은 성능 향상을 보였으며, CPU 용량 증가에 따라 추가적인 성능 향상을 확인했습니다.
NEO는 온라인 LLM 추론 시스템에서 발생하는 GPU 메모리 부족 문제를 해결하기 위한 효과적인 방법을 제시합니다. CPU 오프로딩 기술을 통해 GPU 사용률을 극대화하고 처리량을 향상시키는 NEO는 저렴한 비용으로 고성능 LLM 추론을 가능하게 합니다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Xuanlin Jian... ב- arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.01142.pdfשאלות מעמיקות