수많은 푹신한 새끼 고양이: ThunderKittens로 효율적인 멀티-GPU 통신 커널 만들기
이 글은 ThunderKittens를 활용해 멀티-GPU 환경에서 빠르고 효율적인 통신 커널을 만드는 핵심 원칙과 새로운 전략을 소개합니다. 타일링, 오버랩 스케줄링, 다양한 전송 방식 등 최신 AI 하드웨어의 숨겨진 비밀이 궁금하다면 꼭 읽어보세요!