C 언어로 구현한 NumPy 행렬 곱셈 성능 뛰어넘기
이 블로그 포스트는 CPU에서 고성능 행렬 곱셈을 구현하기 위해 간단하고 이식성이 좋으며 확장 가능한 C 코드를 사용하는 방법을 탐구합니다. SIMD 명령어와 캐시 최적화, 멀티스레딩을 활용하여 NumPy의 성능을 뛰어넘는 것이 가능함을 보여줍니다. 특히 AMD Ryzen 7700 CPU에서 약 1 TFLOPS의 성능을 달성하는 방법을 단계별로 설명합니다.