QCon SF 2024 - Ray를 활용한 GPU 배치 추론 확장
QCon SF 2024에서 Cody Yu는 Anyscale의 Ray를 활용한 GPU 배치 추론 확장에 대해 발표했습니다. Ray는 대규모 데이터셋 처리, 다양한 인스턴스 유형의 신뢰성 확보, 비용과 지연 시간의 균형을 맞추는 데 도움을 줍니다. 특히 vLLM과의 통합으로 배치 추론 시간을 크게 단축시켰습니다. 연속 배치와 파이프라인 병렬 처리는 시스템 효율성을 극대화하며, Ray Serve의 동적 요청 배치는 서비스 처리량을 향상시킵니다. 추측 디코딩은 텍스트 생성 속도를 높여 효율성을 증대시킵니다.