'문서 AI'가 더 똑똑해졌다…"서류 속 문맥·구조까지 파악" 작성일 05-11 16 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">한국딥러닝, VLM 기반 OCR 기술 박차…올 상반기 '딥 OCR 플러스' 출시</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="qKFBKoIikm"> <p contents-hash="d8bc1d4a65a2eceea7b212de5782365435d5cedb205715aa520d8d6cfbf13b5b" dmcf-pid="B93b9gCnjr" dmcf-ptype="general">(지디넷코리아=김미정 기자)문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. 복잡한 문서에서도 주요 정보를 자동 식별하고 고도화된 자동화 처리까지 가능해졌다. </p> <p contents-hash="8ed5f5526e143418afe14d2e7cebd06f9f762ad337a16ae989479661f03be913" dmcf-pid="b20K2ahLgw" dmcf-ptype="general">11일 IT 업계에 따르면 최근 문서 처리 시장에서는 비전언어모델(VLM) 기반 광학 문자 인식(OCR) 기술이 주목받고 있다. 이 기술은 계약서, 보고서 등 여러 형식과 맥락으로 이뤄진 문서 속 표, 조항, 제목, 본문을 AI로 식별해 구조화된 데이터로 변환할 수 있다.</p> <p contents-hash="9dc062b1b315be492c70c68ba4894a0939e7eff4da8b83ae2ae433620456ed05" dmcf-pid="K20K2ahLgD" dmcf-ptype="general">VLM은 이미지와 언어 정보를 동시에 이해하는 AI 모델이다. 일종의 '이미지 전문가'와 '언어 전문가'가 한 팀처럼 협업하는 방식으로 작동한다. 우선 이<span> 모델은 문서</span><span>에서 표, 문장, 도장, 손글씨 등 다양한 이미지 요소를 구분한다. 이후 각 영역의 텍스트를 분석해 의미를 파악하고, 이를 종합적으로 해석한다.</span></p> <figure class="figure_frm origin_fig" contents-hash="0a89d2f1df0c8ce448a040af5ec325eea325d341563335c83800d039ee617e54" dmcf-pid="9Vp9VNloaE" dmcf-ptype="figure"> <p class="link_figure"><img alt="문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. (사진=구글 제미나이)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/11/ZDNetKorea/20250511144017819yicc.jpg" data-org-width="550" dmcf-mid="7NTOCp6FjO" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/11/ZDNetKorea/20250511144017819yicc.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. (사진=구글 제미나이) </figcaption> </figure> <p contents-hash="bde4f4849f4f434025e671b506c7f6eefb26ea2541b2f9ba12f1db9f630a0ef5" dmcf-pid="2fU2fjSgkk" dmcf-ptype="general">이 과정에서 시각 정보와 언어 정보가 실시간으로 상호작용하며 정답을 조율한다. 정보 하나가 잘못 인식되면 다른 정보가 이를 보완하고, 누락된 부분은 이미지 단서를 활용해 추론하는 식이다. </p> <p contents-hash="c66fc45e8bbfc53dc924f79852b5e5833668c0044b3bddb5a878c8a2cac2bc72" dmcf-pid="V4uV4Avacc" dmcf-ptype="general"><span>예를 </span><span>들어, </span><span>사용자가 </span><span>계약서에 </span><span>VLM </span><span>기반 </span><span>OCR을 </span><span>적용하면 </span><span>'계약 당사자'와 '계약 기간' '주요 조항' '서명란' 등을 자동으로 식별해 체계적으로 정리할 수 있다. 이를 통해 문서 처리 자동화 수준을 높이고 반복 작업과 인적 오류를 </span><span>줄일 </span><span>수 있다.</span></p> <p contents-hash="40166c8d0b4e907117360a9da6a6cfe40d15355d838151cccbf9752009c47ff6" dmcf-pid="f87f8cTNcA" dmcf-ptype="general">기존 OCR은 이미지 속 텍스트를 디지털 문자로 바꾸는 데만 초점 맞췄다. 문서 레이아웃이나 의미적 맥락은 이해하지 못해 데이터 활용에 한계가 있었다. 이에 추가 인력이 이를 수작업으로 정리해야만 했다.</p> <p contents-hash="a854166dd630c70833c701edfadf12137aa4b28f82090672e83d1e6dae44bec1" dmcf-pid="46z46kyjkj" dmcf-ptype="general"><strong>VLM OCR, 정확도·사업성 모두 잡아</strong></p> <figure class="figure_frm origin_fig" contents-hash="a7af4271732ec9e3e112bf582fa2e6d3d5e470e8974989533f5f85613daa3f62" dmcf-pid="8Pq8PEWAAN" dmcf-ptype="figure"> <p class="link_figure"><img alt="한국딥러닝은 자체 개발한 VML '딥 이미지' 기반으로 '딥 OCR 플러스'를 올 상반기 중 출시한다. (사진=구글 제미나이)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/11/ZDNetKorea/20250511144019221rswt.jpg" data-org-width="550" dmcf-mid="zLNmO341cs" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/11/ZDNetKorea/20250511144019221rswt.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 한국딥러닝은 자체 개발한 VML '딥 이미지' 기반으로 '딥 OCR 플러스'를 올 상반기 중 출시한다. (사진=구글 제미나이) </figcaption> </figure> <p contents-hash="35664dad75b6aa91776e5200fe09b71bbdb14b8ba989dde64e7896c8cffc5244" dmcf-pid="6QB6QDYcca" dmcf-ptype="general">한국딥러닝은 자체 개발한 VML '딥 이미지' 기반으로 '딥 OCR 플러스'를 올 상반기 중 출시한다. 이 솔루션은 별도 학습 없이 여러 형식 문서를 처리할 수 있다. 한국어·영어·숫자·특수문자가 섞인 복잡한 구조도 정확하게 인식할 수 있도록 설계됐다.</p> <p contents-hash="623d7ff759045b5d18d9ac247b5c0e8cb38bc4968f1ae3c100c65f5cdfe0d25c" dmcf-pid="PxbPxwGkjg" dmcf-ptype="general">딥 OCR 플러스는 문서의 표나 문단을 자동 분석해 핵심 정보를 요약하고, 추출 데이터를 표준 포맷으로 제공해 업무 시스템과 연동된다. 한국딥러닝은 이 솔루션으로 문서 검토 시간을 최대 80% 줄이고, 일관된 데이터 품질을 유지할 수 있다고 강조했다.</p> <p contents-hash="0ec1eda85bd5a4a566e0e81e91b297a177c48a88d776cb8c595ce2655c771275" dmcf-pid="QMKQMrHEco" dmcf-ptype="general">앞서 업스테이지도 AI 기반 문서 구조화 솔루션 '다큐먼트 파스'를 출시해 보험, 금융, 의료 등 산업 현장에서 문서 자동화를 지원하고 있다. 고정밀 벤치마크에서 아마존·마이크로소프트 모델보다 높은 정확도를 기록한 것으로 전해졌다. 올해 6월 모델 '솔라'를 결합한 '솔라 다큐브엘엠'도 출시한다.</p> <p contents-hash="5d4d0303466aec28d3dcb734ac469d7c612705b0ea602121dd0c495701bf011c" dmcf-pid="xR9xRmXDAL" dmcf-ptype="general">솔라 타큐브엘엠은 시각 정보와 언어 정보 통합 처리 역량을 강화해 문서 기반 요약, 질의응답, 자동 분류까지 수행할 수 있도록 구성됐다. 특히 비정형 문서나 복잡한 레이아웃 문서에서도 높은 인식률을 보일 것이란 평가를 받고 있다.</p> <p contents-hash="d557ba4048df78e17aa6b62b59695a61d2623b75c92cc258746523215594e181" dmcf-pid="yIjsI08tjn" dmcf-ptype="general">김지현 한국딥러닝 대표는 "비전 OCR은 돈 버는 AI"라며 "정확도와 사업성을 모두 잡을 수 있는 실용 기술"이라고 강조했다.</p> <p contents-hash="abea5f5c2045344e118f1aed56470a8a8ff6bae16f091358d50094932808a4a5" dmcf-pid="WCAOCp6FNi" dmcf-ptype="general">김미정 기자(notyetkim@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p> 관련자료 이전 이상이 “김고은과 로코? 지금 정도가 딱 좋아”…절친 선 긋는 이유는('보고싶었어') 05-11 다음 삼성전자, D램 가격 올렸다…메모리 모처럼 '봄' 05-11 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.