박사 학위 지식 불필요: 대형 언어 모델을 위한 추론 도전
이 연구는 일반 지식에 기반한 새로운 벤치마크를 소개하며, 이는 NPR Sunday Puzzle Challenge에서 영감을 받았습니다. OpenAI의 모델 o1이 다른 모델보다 뛰어난 성능을 보이며, DeepSeek R1의 추론 실패를 분석합니다. 이 연구는 추론 능력의 한계를 드러내고, 추가적인 추론이 정확성을 높이지 않는 임계점을 제시합니다.