Nexa AI, 엣지 AI를 위한 소형 비전-언어 모델 Omnivision 공개
Nexa AI가 Omnivision을 발표했습니다. 이 모델은 엣지 디바이스에 최적화된 비전-언어 모델로, 이미지 토큰을 729개에서 81개로 줄여 지연 시간과 계산 요구량을 크게 낮췄습니다. Omnivision은 시각적 질문 응답과 이미지 캡션 생성에서 뛰어난 성능을 발휘하며, Direct Preference Optimization을 통해 예측의 신뢰성을 높였습니다. 이 모델은 Nexa-SDK를 통해 로컬에서 배포 가능하며, 향후 광학 문자 인식(OCR) 기능도 추가될 예정입니다.