Anthropic의 'AI 현미경', 대형 언어 모델의 내부 작동 원리 탐구
Anthropic의 'AI 현미경'은 대형 언어 모델(LLM)의 내부 작동을 탐구합니다. 이 연구는 Claude Haiku 3.5의 환각과 계획 같은 주요 행동을 분석하며, 보편 언어 개념을 발견했습니다. 이 방법론은 모델의 해석 가능성을 높이고, 인간 가치와의 정렬을 목표로 합니다.