VideoPrism: 비디오 이해를 위한 기초적인 시각 인코더
VideoPrism은 다양한 비디오 이해 작업에서 최고의 성능을 보이는 범용 비디오 인코더입니다. 이 모델은 36백만 개의 고품질 비디오-텍스트 쌍과 5억 8천 2백만 개의 비디오 클립을 사용하여 사전 훈련되었습니다. VideoPrism은 33개의 비디오 이해 벤치마크 중 30개에서 최고의 성능을 나타내며, 과학 비디오 데이터셋에서도 뛰어난 결과를 보여줍니다.