ASAPAi Soon As Possible · AI·테크 이슈를 가장 빠르게
Article

Unlimited OCR: KV 캐시를 일정하게 유지해 수십 페이지를 한 번에 읽는 3B OCR 모델

AASAP
2026-06-28 · 3분 읽기

Unlimited OCR는 Baidu 연구진이 DeepSeek OCR 디코더의 모든 어텐션 레이어를 Reference Sliding Window Attention(R-SWA)으로 교체해, 출력이 아무리 길어져도 KV 캐시 크기를 일정하게 유지하도록 만든 3B 파라미터 OCR 모델입니다. 2026년 6월 공개된 기술 보고서 "Unlimited OCR Works"(arXiv 2606.23050, Youyang Yin 외)는 디코더가 생성 길이에 따라 메모리가 불어나며 느려지는 문제를 R-SWA로 끊어, 수십 페이지 문서를 표준 최대 길이 32K 토큰 안에서 한 번의 순전파로 전사합니다. 가중치는 MIT 라이선스로 공개됐습니다.

엔드투엔드 OCR이 긴 출력에서 느려지는 이유

엔드투엔드 OCR은 LLM을 디코더로 써서 언어의 사전 분포를 활용하는 대신, 출력 시퀀스가 길어질수록 누적되는 KV 캐시가 메모리를 잡아먹고 생성 속도를 떨어뜨린다는 약점을 안고 있습니다. DeepSeek OCR로 대표되는 이 계열은 문서를 이미지로 받아 텍스트로 풀어내는 강력한 방식이지만, 한 번에 처리할 분량이 길어질수록 비용이 커집니다.

보고서는 이 문제를 사람의 작업 기억과 대비합니다. 사람은 긴 베껴 쓰기 작업에서도 효율이 떨어지지 않는데, 기존 디코더는 토큰이 쌓일수록 점점 둔해진다는 점을 출발점으로 삼았습니다.

R-SWA가 바꾼 것: 디코더 어텐션 전면 교체

Reference Sliding Window Attention(R-SWA)은 DeepSeek OCR을 베이스라인으로 삼아 디코더의 모든 어텐션 레이어를 대체하는 새 어텐션입니다. R-SWA는 어텐션 연산 비용을 줄이면서, 디코딩 전 과정에서 KV 캐시를 상수 크기로 유지하도록 설계됐습니다.

핵심은 메모리를 무한정 늘리지 않는다는 점입니다. 출력이 길어져도 캐시가 일정하게 유지되므로, 길이에 비례해 느려지던 생성 곡선이 평평해집니다. 이름 그대로 "사람의 파싱 작업 기억"을 흉내 내려는 설계입니다.

한 번의 순전파로 수십 페이지, 표준 32K 길이

Unlimited OCR는 DeepSeek OCR 인코더의 높은 압축률과 R-SWA의 상수 KV 캐시를 결합해, 수십 페이지 분량의 문서를 표준 최대 길이 32K 토큰 안에서 단 한 번의 순전파로 전사합니다. 긴 문서를 페이지 단위로 잘라 여러 번 호출하던 방식과 달리, 한 패스로 길게 이어 읽는 것이 이 모델의 정체성입니다.

이 결합이 의미하는 바는 분명합니다. 인코더가 페이지를 적은 토큰으로 압축하고, 디코더가 그 토큰을 일정한 메모리로 받아내면서, 길이가 늘어도 효율이 무너지지 않습니다.

공개 형태와 성능 지표: MIT 라이선스·ParseBench

Unlimited OCR는 3B 파라미터 모델로 Hugging Face에 MIT 라이선스 가중치로 공개됐고, Transformers와 SGLang에서 구동할 수 있습니다. 모델 카드는 llamaindex의 ParseBench로 평가를 제시하며, 평균 46.17, 텍스트 내용 86.81, 텍스트 서식 0.97을 기록합니다.

평가 해석에는 주의가 필요합니다. 텍스트 내용 점수는 높지만 서식 점수가 낮다는 점은, 글자를 읽어내는 능력과 레이아웃·표·서식을 복원하는 능력이 다른 축임을 보여줍니다. 일부 2차 매체가 인용한 OmniDocBench 점수나 처리량 수치는 1차 자료(arXiv 보고서·모델 카드)에서 확인되지 않아 본문에 싣지 않았습니다.

정리

Unlimited OCR의 가치는 새로운 벤치마크 1위가 아니라, 긴 출력에서 OCR 디코더가 느려지는 구조적 원인을 KV 캐시 상수화라는 한 가지 수정으로 겨냥한 데 있습니다. R-SWA로 디코더 어텐션을 전부 교체해 수십 페이지를 한 패스로 읽는다는 설계는 장문 문서 파싱의 비용 곡선을 바꿉니다. 다만 공개된 정량 지표는 ParseBench 중심이며, 다른 벤치마크나 대규모 실사용에서의 일반화는 추가 검증이 필요합니다.


참고: Unlimited OCR Works (Youyang Yin 외, Baidu, 2026, arXiv 2606.23050) · 모델 카드(baidu/Unlimited-OCR, MIT)

ASAP

AI·테크 이슈,
가장 빠르게

단순 소식을 넘어, 맥락과 구조까지 파고듭니다

Ai Soon As Possible · asapai.co.kr

AI TOP 100 (CAMPUS) 2026 finalist badge
← 전체 글 보기