이파피루스, 문서 데이터 추출 '파이뮤PDF 프로' 전년 대비 다운로드 수 5배 증가 작성일 12-12 32 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">파이선 패키지 저장소 PyPI 다운로드 수 24년 대비 5배 증가, 최근 두 달간 1억2000만 다운로드<br>머신러닝 기반 레이아웃 분석 적용, GPU 필요한 제품보다 10배 빠르게 문서 데이터 추출</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="06T5QfyOrS"> <figure class="figure_frm origin_fig" contents-hash="caec3cee4bc6210df9e1cb595c1cc84ce484ec2e2cfc82fdac0cc5e23794b631" dmcf-pid="pPy1x4WIwl" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/12/etimesi/20251212123740877icgk.jpg" data-org-width="700" dmcf-mid="3O17LetWOv" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/12/etimesi/20251212123740877icgk.jpg" width="658"></p> </figure> <p contents-hash="a78d0b05834d2c990e554bdcc7044a0796d4bb774d2931848d96e0537e569c83" dmcf-pid="UQWtM8YCIh" dmcf-ptype="general">문서 인공지능(AI) 기업 이파피루스(대표 김정희)는 자사 문서 데이터 추출 라이브러리 '파이뮤PDF 프로(PyMuPDF Pro)'의 2025년 다운로드 수가 2024년 연간 대비 5배 이상 증가했다고 밝혔다.</p> <p contents-hash="87f17471fa005aade2c51629499fa11e2f3d27abdb8671c55715db854b1fbbaa" dmcf-pid="uxYFR6GhwC" dmcf-ptype="general">'파이뮤PDF 프로'는 AI 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이선 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. 파이선 개발자들을 위한 패키지 저장소인 PyPI(Python Package Index)에서 올해 1월부터 11월까지 총 2억2000만 회 이상 다운로드 됐다. 이는 작년 1월부터 12월까지의 다운로드 합계인 4400만건을 크게 상회하는 수치다. 매년 꾸준히 상승세를 이어 온 가운데 특히 올해 9월을 기점으로 폭발적으로 증가, 10월부터 11월까지 다운로드 수만 1억2000만회에 이른다.</p> <p contents-hash="78e8a860348aae99e80e10d6b4bd99997ead9f22b7a3a047dbabc1583100c9cc" dmcf-pid="7MG3ePHlEI" dmcf-ptype="general">김정아 이파피루스 부사장은 이 같은 성장의 배경으로 AI 서비스 시장 확대를 꼽으며 “'파이뮤 PDF 프로'는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(Chunk, 말뭉치)를 생성할 수 있으며, 추출한 문서 데이터를 LLM(대규모 언어 모델, Large Language Models) 및 RAG(검색 증강 생성, Retrieval Augmented Generation) 친화적인 제이슨(JSON)과 마크다운(Markdown), 라마인덱스 리더(LlamaIndex Reader) 파일로 출력할 수 있어 AI 학습용 데이터 추출이나 문서 기반 대화형 서비스 개발에 매우 유리하다”고 밝혔다.</p> <p contents-hash="5e1d44c2877995764019df987644906a663d93169ff43b5eeba7b178f47eb70b" dmcf-pid="zRH0dQXSEO" dmcf-ptype="general">최근 있었던 레이아웃 분석 성능 업그레이드 또한 급성장 요인으로 주목받고 있다. 현재 AI 전처리를 위해 사용되는 시중의 문서 데이터 추출 솔루션 대부분은 문서를 고해상도 이미지로 인식한 뒤 데이터를 추출하는 VLM(비전 언어 모델) 방식을 기반으로 한다. 새로워진 '파이뮤PDF 프로'는 이와 달리 자체 개발한 머신러닝 기반 레이아웃 분석기를 통해 문서 구조 자체를 파악해 데이터로 추출, VLM 방식을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 속도로 정확한 데이터 처리가 가능하다. 테두리가 없거나 병합 셀 등을 포함한 표 문서, 스캔 이미지와 디지털 데이터가 혼합된 복잡한 문서 추출에 독보적인 정확도와 속도를 자랑한다. GPU가 필요한 VLM 방식과 달리 CPU만으로도 작동해 비용 부담이 적은 것도 강점이다. 추출 대상 문서로 PDF, MS오피스, 한글 문서, 이미지 외 다양한 포맷을 지원한다.</p> <p contents-hash="e79282995402955db920fabbad7d328691194921af3c13a09d8a8ba9c5bccba9" dmcf-pid="qeXpJxZvms" dmcf-ptype="general">'파이뮤PDF 프로'는 오픈AI, 오라클(Oracle), 보쉬(Bosch), DHL, 도큐사인(DocuSign), 슈나이더일렉트릭(Schneider Electric) 등 유수의 글로벌 기업으로부터 그 성능을 인정받고 있다. 테스트가 필요한 고객들을 위해 홈페이지 내 데모 페이지와 60일 무료 체험 라이선스를 제공한다.</p> <p contents-hash="43fbe84d419013067b9c0953b23c94f5347ece7859925b63ba086fc579837850" dmcf-pid="BdZUiM5TEm" dmcf-ptype="general">김현민 기자 minkim@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 김고은 "10년만에 만난 전도연 선배..벽에 대고 이야기해 아쉬워" [인터뷰②] 12-12 다음 변곡점에 선 숙취해소제 시장…마이크로바이옴 기반 접근 ‘주목’ 12-12 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.