본문 바로가기
AI 트렌드

오픈소스 VLM OCR 성능 비교 벤치마크

by 앨런튜링1 2025. 4. 3.
반응형

안녕하세요.

오늘은 최근 공개된 OmniAI의 벤치마크를 바탕으로, 다양한 오픈소스 비전 언어 모델(VLM)들이 OCR(광학 문자 인식) 작업에서 어떤 성능을 보였는지 소개드립니다. 쉽게 이해할 수 있도록 OCR이 무엇인지부터, 어떤 모델이 가장 뛰어났는지까지 자세히 설명드리겠습니다. 


OCR의 진화와 VLM의 부상

🔍 전통적인 OCR 솔루션의 한계

OCR(Optical Character Recognition)은 이미지 속 글자를 추출하는 기술입니다. 기존에는 AWS Textract, Google Cloud Vision, Azure OCR 등의 전통적인 솔루션이 주를 이뤘지만, 구조화된 정보 추출에는 제한이 있었습니다.

✨ VLM의 도입과 기대 효과

VLM(Vision-Language Model)은 이미지를 이해하고 언어로 해석할 수 있는 AI 모델입니다. 이들은 이미지에서 글자뿐 아니라 의미까지 추론해 더 정확한 정보 추출이 가능합니다.

⚔️ 오픈소스 vs 클로즈드소스 모델의 경쟁

GPT-4, Gemini 등은 강력한 폐쇄형 모델이지만, 최근 오픈소스 모델도 급속히 발전하고 있어, 누구나 접근 가능하고 커스터마이징이 용이하다는 장점이 있습니다.


벤치마크 평가 방법

🧪 테스트의 목적과 핵심 지표

이번 벤치마크는 각 모델이 문서에서 정보를 얼마나 정확하게 추출하는지를 평가합니다. 특히 JSON 포맷으로의 변환 정확도, 처리 속도, 비용 등이 핵심 지표였습니다. 이미지를 OCR로 텍스트화한 뒤, 구조화된 JSON으로 변환하는 과정을 평가했습니다.

📂 사용된 데이터셋 및 평가 방법론

총 1,000개의 문서를 사용해 모델의 OCR 결과를 GPT-4o에 입력한 뒤, JSON 스키마 기반의 정답과 비교해 정확도를 측정했습니다. 다양한 모델 중 GPT-4o가 JSON 스키마를 가장 안정적으로 해석했기 때문에 채택되었습니다.

📊 JSON 추출 정확도 중심의 평가

단순한 텍스트 인식이 아니라, 문서의 정보를 **정확한 필드(JSON)**로 뽑아내는 능력을 테스트했습니다. 


반응형

주요 모델의 벤치마크 결과

🥇 전체 정확도 및 모델별 순위

Qwen 2.5 (72B, 32B) 모델이 75% 이상의 정확도로 가장 뛰어났고, 그 뒤를 Mistral-OCR이 이었습니다. Gemma-3는 낮은 성과를 보였습니다.

⚡ Qwen 2.5 VL (72B, 32B)의 탁월한 성능

비전 기능과 자연어 처리 능력이 조화되어 높은 정확도를 달성했습니다.

📘 Mistral-OCR

OCR 특화로 학습된 모델임에도 불구하고 Qwen 모델에 뒤처졌습니다. 정확도는 약 72.2%였습니다.

❗ Gemma-3의 낮은 성능과 그 원인 분석

데이터 누락, 단어 순서 오류, 내용 착오(hallucination) 등의 일반적인 문제들이 관찰됐습니다.

💰 비용과 응답 속도 비교

Qwen은 높은 성능 대비 빠른 응답 속도와 비교적 저렴한 비용으로 실용적입니다.


오류 유형과 한계 분석

⚠️ 일반적인 VLM의 오류 유형

VLM은 종종 잘못된 값 추출, 문장 누락, 단어 위치 바뀜 등의 오류를 내포합니다.

🔍 예제 분석: 겉보기엔 정확하지만 실제는 오류

형식상 완벽해 보여도, 실제로 필드 값이 누락되거나 잘못 기입된 사례들이 발견되었습니다.

🧠 Hallucination 및 데이터 누락 이슈

VLM은 존재하지 않는 정보를 만들어내는 경우도 있어, 실제 데이터와의 비교는 필수입니다.

 


향후 벤치마크 및 연구 방향

🧭 전통 OCR 솔루션과의 통합 평가 예정

AWS Textract, Azure OCR, Google Vision과의 직접 비교가 예정되어 있습니다.

🧮 멀티모달 입력과 포맷 추출 성능 고도화

단순 OCR을 넘어서, 이미지+텍스트 복합 입력에 대한 이해도가 핵심 과제로 떠오르고 있습니다.


실무 적용 사례 및 가능성

🏦 금융, 보험, 컴플라이언스에서의 활용

문서 기반의 업무 자동화, 규제 준수 문서 검토, 보험 청구 자동화 등 다양한 분야에 적용될 수 있습니다.

⚙️ 자동화 워크플로우로의 통합

OmniAI의 API를 활용해 기업 워크플로우에 OCR+추출 자동화를 쉽게 적용할 수 있습니다.


결론: 최고의 오픈소스 OCR VLM은?

🏆 Qwen의 우위와 향후 기대

현재로서는 Qwen 2.5가 정확도와 효율성 면에서 최고의 오픈소스 VLM입니다.

🚀 VLM 기반 OCR의 미래 가능성

구조화된 정보 추출, 자연어 기반 질의응답 등에서 VLM 기반 OCR의 가능성은 매우 큽니다.


출처

https://getomni.ai/blog/benchmarking-open-source-models-for-ocr

 

How do open source VLMs perform at OCR

For several months, we’ve been evaluating how well vision models handle OCR. Our initial benchmark focused on the closed-source models (GPT, Gemini, and Claude) and their comparisons to traditional OCR providers (AWS, Azure, GCP, etc.). However this week

getomni.ai

 

반응형