YaFSDP: 대규모 언어 모델 사전 훈련을 위한 샤딩 데이터 병렬 처리 프레임워크
YaFSDP는 트랜스포머 기반 신경망 아키텍처에 최적화된 샤딩 데이터 병렬 처리 프레임워크입니다. 이는 기존 FSDP보다 최대 20% 빠른 성능을 제공하며, 높은 메모리 압박 상황에서도 더욱 효과적입니다. 또한, 다양한 사전 훈련 설정에서의 벤치마크 결과도 포함되어 있습니다.