LLM의 내부 표현은 진실성에 대한 정보를 인코딩합니다
이 연구는 대규모 언어 모델(LLM)의 내부 표현이 출력의 진실성에 대한 정보를 어떻게 인코딩하는지 탐구합니다. 특히, 진실성 정보가 LLM의 특정 토큰에 집중되어 있으며, 이를 활용하면 오류 감지 성능이 크게 향상됩니다. 이러한 발견은 LLM 오류에 대한 이해를 심화시키고, 오류 분석 및 완화 연구를 안내할 수 있습니다.