OpenAI, 소프트웨어 엔지니어링 벤치마크 도입
OpenAI가 SWE-Lancer 벤치마크를 통해 AI 언어 모델의 실제 프리랜서 소프트웨어 엔지니어링 작업 능력을 평가합니다. 이 벤치마크는 Upwork에서 수집한 1,400개 이상의 작업을 기반으로 하며, AI의 경제적 영향과 생산성 향상 가능성을 탐구합니다. Claude 3.5 Sonnet 모델은 26.2%의 성공률을 기록하며, AI의 발전 가능성을 보여줍니다.