메타 AI, AI 모델이 응답하기 전에 생각하도록 하는 '사고 선호 최적화' 도입
메타 FAIR, UC 버클리, NYU의 연구자들이 대형 언어 모델의 응답 품질을 향상시키기 위해 '사고 선호 최적화(TPO)'라는 새로운 방법을 소개했습니다. 이 기술은 모델이 최종 답변을 제공하기 전에 구조화된 내부 사고를 준비하도록 돕습니다. TPO는 복잡한 지시 사항을 더 효과적으로 처리할 수 있게 하며, 다양한 분야에 응용될 가능성이 있습니다.