HN에 소개: ML 훈련을 위한 OCR 파이프라인 (표, 다이어그램, 수학, 다국어 지원)
이 OCR 시스템은 복잡한 교육 자료에서 구조화된 데이터를 추출하여 기계 학습 훈련에 최적화된 형식으로 제공합니다. 다국어 텍스트, 수학 공식, 표, 다이어그램을 지원하며, 90-95% 이상의 정확도를 자랑합니다. DocLayout-YOLO, Google Vision API 등 최신 기술을 활용하여 AI 준비 출력을 생성합니다.