Show HN: Terminal-Bench-RL – RL로 장기 터미널 에이전트 훈련하기
터미널-Bench-RL은 대규모 GPU 클러스터에서 RL을 활용해 터미널 기반 코딩 에이전트를 훈련하는 오픈소스 프로젝트입니다. Qwen3-32B 에이전트가 스탠포드와 OpenAI 모델을 제치고 리더보드 상위권에 올랐어요! RL, 도커, 자동 평가 등 흥미로운 기술이 가득합니다.