유알피, '대한민국 약전' 디지털 전환...비전 AI로 복잡한 화학식·표 난제 풀었다 작성일 12-16 16 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">LLM·RAG에 '비전 기반 자체 AI-OCR' 결합…문서 구조 및 문맥까지 파악<br>복잡한 화학 구조식·표 데이터화 성공, 식의약품 데이터 AI 전환(AX) 앞장</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="uGXrrNqFEr"> <figure class="figure_frm origin_fig" contents-hash="8bdf498698e12da0f10e74757d47a4938680d5af189d560d7e9acd9e5042d0cb" dmcf-pid="7HZmmjB3Ew" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/16/etimesi/20251216111504844ngpb.png" data-org-width="700" dmcf-mid="pCzWWIQ9ss" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/16/etimesi/20251216111504844ngpb.png" width="658"></p> </figure> <p contents-hash="d199d73905f84f24a490078d9ac60b0d51d892c543093a3f3e00e25f2c2c5e79" dmcf-pid="zX5ssAb0rD" dmcf-ptype="general">인공지능(AI) 기술 전문기업 유알피(URP, 대표 이홍재)는 그동안 기술적 한계로 온라인화가 지연됐던 '대한민국 약전(KP)'을 디지털로 구축하고 베타 서비스를 시작한다고 밝혔다.</p> <p contents-hash="df2f0d7a0f0c1314fa589e582f970fe256e5f2536582db3e8b0c2b400436cc1a" dmcf-pid="qZ1OOcKpOE" dmcf-ptype="general">이번 서비스는 기존 광학문자인식(OCR) 기술 한계를 넘어 거대언어모델(LLM), 검색증강생성(RAG), 그리고 고도화된 '비전(Vision) 기반 AI-OCR' 기술을 융합해 비정형 데이터 처리의 새로운 해법을 제시했다는 평가를 받는다.</p> <p contents-hash="0f64d81c36f00c9f6ee883a3696f0e86ec9c26e5686a8a73c8cea3fc6a414fc5" dmcf-pid="B5tIIk9UEk" dmcf-ptype="general">대한민국 약전은 의약품 성상, 품질, 저장 방법 등 기준을 정한 필수 공정서다. 방대한 분량 내에 난해한 수식과 화학 구조식, 복잡한 표(Table)가 다수 포함돼 있어 디지털화에 난항을 겪어왔다.</p> <p contents-hash="31d53d25db24742ba74550597253a999f14a9d4d5aefd195ffbedcd9893f8510" dmcf-pid="b1FCCE2uDc" dmcf-ptype="general">기존 텍스트 중심 OCR 방식은 문서 레이아웃을 무시하고 글자만 추출하는 방식이다. 이로 인해 표 구조가 깨지거나 화학식이 오인식되는 경우가 빈번했고, 이는 데이터의 구조적 맥락(Context) 소실로 이어져 검색 및 실무 활용을 불가능하게 만드는 주원인이었다.</p> <p contents-hash="9410cae83d1410a52005d8c1e1d92659bb0172453de217c424b19883fc3c25ee" dmcf-pid="Kt3hhDV7OA" dmcf-ptype="general">유알피는 이러한 난제를 자체 개발한 '비전 AI-OCR 솔루션'으로 돌파했다. 이 기술은 인간이 눈으로 문서를 보는 것처럼 비전(Vision) 기술을 활용해 문서 전체의 레이아웃과 디자인 구조를 파악하는 것이 특징이다.</p> <p contents-hash="5dcd9ff28522a9c8045bbb6236838dd67239dd2b7e7e740874bbb55cc09e7bc2" dmcf-pid="9F0llwfzrj" dmcf-ptype="general">핵심 기능은 △단순 텍스트 인식을 넘어 복잡한 표의 셀(Cell) 구조를 완벽하게 인식·재구성하는 '구조 인식(Structure Recognition)' △일반 OCR로 인식이 불가능한 화학 구조식을 위한 '전문 데이터 추가 학습' △문서의 구조적 정보를 추출해 RAG 시스템과 연동해 답변 정확도(Accuracy)를 높이는 'RAG 연동'기술 등이다.</p> <p contents-hash="c3d11095753a828e30995e0045f293feda51910f0cacf08f730869dad0348f2f" dmcf-pid="23pSSr4qmN" dmcf-ptype="general">이번 서비스는 각 분야 전문 기업과 협력을 통해 완성도를 높였다. 식의약품 데이터 전문 기업 솔리데오와 협력해 데이터의 신뢰성 및 실무 활용 방법을 검증했으며, 전자문서 전문 기업 오픈드래프트와 손잡고 공공분야 표준인 아래한글(HWP)의 모든 버전에 대한 완벽한 처리 호환성을 지원한다.</p> <p contents-hash="2e579b9c783d5a73d24572002d9094a03efb7d09a67055f344214dcfd4b3b68c" dmcf-pid="V0Uvvm8BIa" dmcf-ptype="general">이홍재 유알피 대표는 “이번 서비스는 AI 기술이 실제 업무 현장의 난제를 어떻게 해결하고 효율성을 높일 수 있는지 증명한 사례”라며 “약전의 디지털화를 기점으로 식의약품 산업 전반의 인공지능 전환(AX)을 촉진하는 계기가 될 것”이라고 밝혔다.</p> <p contents-hash="c8daed6df08d14c86638357ff2e368e78f98250dd1d4df8280cabbaec2660149" dmcf-pid="fLgffzOcIg" dmcf-ptype="general">이번 유알피의 사례는 비정형 문서 데이터(Unstructured Document Data)를 자산화하는 과정에서 기존 기술과 차세대 기술의 차이를 명확히 보여준다. 단순한 텍스트 추출이 아니라 문서가 가진 '공간적 정보'를 데이터 속성으로 활용하는 것이 핵심이다.<br></p> <figure class="figure_frm origin_fig" contents-hash="63a25592fe6e652603514859836fdf62b86332b51ad7fa6582fd8c23e265fbbb" dmcf-pid="4oa44qIkwo" dmcf-ptype="figure"> <p class="link_figure"><img alt="기존 Legacy OCR vs 유알피 Vision AI-OCR 기술 비교" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/16/etimesi/20251216111506122njwf.png" data-org-width="619" dmcf-mid="UvWkkLUZDm" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/16/etimesi/20251216111506122njwf.png" width="658"></p> <figcaption class="txt_caption default_figure"> 기존 Legacy OCR vs 유알피 Vision AI-OCR 기술 비교 </figcaption> </figure> <p contents-hash="b19ea9c8b990d06d71e564462041a6d3d37740207e2b2cff86db8f808c0ed3c8" dmcf-pid="8gN88BCEOL" dmcf-ptype="general">특히 생성형 AI 도입을 준비하는 기업들에 시사하는 바가 크다. RAG 성능은 결국 검색된 문서 품질에 좌우된다. 표와 구조식이 깨진 데이터는 LLM의 할루시네이션(Hallucination)을 유발하지만, 구조화된 OCR 데이터는 답변의 신뢰성을 보장하기 때문이다. 유알피의 시도는 특수 도메인 데이터의 AI 전환(AX)에 있어 중요한 레퍼런스가 될 전망이다.</p> <p contents-hash="ec6b25e9aef6aac826854ee47c1ae4e3193799ce8637daf168c9fba73aac1d9c" dmcf-pid="6aj66bhDEn" dmcf-ptype="general">김현민 기자 minkim@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 "AI버블론 없다"…'25년 사상 최대 투자'에 한국 돈도 긁어갔다 12-16 다음 KAIST, 늘어날수록 전파 조절하는 '전자기파 은폐' 기술 개발[과학을읽다] 12-16 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.