Show HN: NVMe-GPU 직접 연결로 RTX 3090에서 Llama 3.1 70B 구동하기
NTransformer는 대형 언어 모델을 RTX 3090 한 장에서 구동할 수 있게 해주는 초고효율 C++/CUDA 추론 엔진입니다. NVMe를 통해 CPU를 우회해 GPU로 직접 모델을 스트리밍하며, 3단계 캐싱과 레이어 스킵 등 혁신적인 기능이 돋보입니다!