GPQA: 대학원 수준의 구글에서 찾을 수 없는 Q&A 벤치마크
GPQA는 생물학, 물리학, 화학 분야의 전문가들이 작성한 448개의 다지선다형 문제로 구성된 도전적인 데이터셋을 소개합니다. 이 문제들은 전문가들도 평균 65%의 정확도를 보이며, AI 시스템도 39%의 정확도를 나타내는 등 매우 어렵습니다. 이를 통해 AI 시스템이 인간의 능력을 넘어서는 정보를 제공할 때, 인간 전문가가 신뢰할 수 있는 정보를 얻을 수 있는 방법을 모색하고자 합니다.