FlashAttention-3: 호퍼 GPU에서 더 빠르고 정확한 주의력 구현
FlashAttention-3은 호퍼 GPU의 기능을 최대한 활용하여 주의력 계산을 가속화하는 새로운 알고리즘입니다. 이는 비동기성, 블록 단위 행렬 곱셈과 소프트맥스 연산의 중첩, 그리고 FP8 저정밀도 하드웨어 지원을 통해 이전 모델보다 1.5-2배 빠른 성능을 제공합니다. 이로 인해 대규모 언어 모델에서 더 긴 맥락을 사용할 수 있게 되었습니다.