“AI 전환 손쉽게”…데이터 전처리 솔루션 각축전 작성일 06-29 11 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="8zOTUlLK5s"> <figure class="figure_frm origin_fig" contents-hash="f67df89298cef9c4b3eec221e1bea5f6ae686f8dc3caac0bff9b56fe28ae77f9" dmcf-pid="6qIyuSo9Xm" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202506/29/etimesi/20250629170255933plfe.jpg" data-org-width="700" dmcf-mid="4oB4g2HEHO" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202506/29/etimesi/20250629170255933plfe.jpg" width="658"></p> </figure> <p contents-hash="0e8df11c9dcac19ee6e161488178081c83b3aaa519870168422d36275cc791d8" dmcf-pid="PBCW7vg2Yr" dmcf-ptype="general">인공지능(AI)이 확산하면서 고품질 AI를 위한 필수 과정인 데이터 전처리 시장도 급성장하고 있다. 관련 기업들도 솔루션을 속속 선보이며 주도권 확보에 나섰다.</p> <p contents-hash="9d8727c26ad07816368691fc0ac35d613aabc21be464b29f94212b76990d48da" dmcf-pid="QNqfo9GkYw" dmcf-ptype="general">29일 관련 업계에 따르면, 비정형 문서 데이터를 효과적으로 활용하기 위한 데이터 전처리 솔루션 경쟁이 본격화되고 있다.</p> <p contents-hash="61d6469c096205335db116d8da134225da101477f01a76cfb249b8fc17ca863c" dmcf-pid="xjB4g2HEGD" dmcf-ptype="general">생성형 AI나 검색증강생성(RAG) 기반 서비스를 구축하려면 기업 내부에 쌓인 PDF, 한글(HWP), 워드, 스캔본, 이미지 등 비정형 문서를 AI가 이해할 수 있는 형태로 가공하는 전처리 작업이 필수다.</p> <p contents-hash="0718e3dca2433d6157ce16f6de6dfa86563ed0c2f57a60d3ab576c51512891cf" dmcf-pid="ypwhFOdzZE" dmcf-ptype="general">AI 데이터 전문기업 크라우드웍스는 생성형 AI 기반 전처리 솔루션 '알피 날리지 컴파일러'를 선보였다. 이 솔루션은 문서의 복잡도를 자동 분석해 전처리 자동화 수준을 결정하며, 이미지·테이블 등 문서 구성요소에 대한 메타데이터 생성도 가능하다. 문서 복잡도 분석 특허 기술을 적용해 자동화 가능성과 리소스 효율성을 모두 갖췄다.</p> <p contents-hash="6b52fce2d55818f2bd30081523ba4e0cf6b2606d0d0f3c5792f07a78753bff6d" dmcf-pid="WUrl3IJqGk" dmcf-ptype="general">업스테이지는 문서 구조를 보존하면서 HTML 형태로 고도화된 출력을 제공하는 '도큐먼트 파서'를 출시했다. 최신 광학문자인식(OCR) 기술을 적용해 문서 내 표, 차트, 항목, 구조 정보를 분석하고, 일관된 출력값을 생성함으로써 거대언어모델(LLM)의 응답 품질과 학습 효율을 높인 것이 특징이다.</p> <p contents-hash="0dc51f394cc05687541db1fb50e3b74053c543cdadd5d32e731df736ee445ef9" dmcf-pid="YumS0CiBGc" dmcf-ptype="general">한글과컴퓨터는 '한컴 데이터 로더'를 출시하고 국내외 기업간거래(B2B) 시장을 공략하고 있다. PDF 등 다양한 문서에서 텍스트와 객체 정보를 추출해 AI 학습에 적합한 구조로 변환해주는 데이터 전처리 소프트웨어개발키트(SDK)로 제공되며, 회사의 오랜 문서처리 노하우가 반영됐다.</p> <p contents-hash="1ea87eadd6a7fd95544eae6f0bbcfa2d1d34c1aee1f6c2d8825c4fcd040abe23" dmcf-pid="G7svphnbHA" dmcf-ptype="general">데이터 전처리 기술은 생성형 AI의 환각 문제를 줄이고, 보다 정확한 답변 생성을 위한 핵심 인프라가 될 것으로 기대된다. 특히 일본 등 문서 기반 업무 환경이 유사한 해외 시장에서 수출과 현지화가 용이하다는 점에서 국내 기업들은 기술 고도화와 해외 진출을 병행하고 있다. 현재 데이터 전처리 시장은 아직 1위 사업자가 뚜렷하지 않은 초기 경쟁 구도인만큼 국내외 시장을 동시 공략 중이다.</p> <p contents-hash="e69cbb9afbf07fe31457eac5dd67007334b36965d341f2d8e92383d31fa39e18" dmcf-pid="HzOTUlLKHj" dmcf-ptype="general">업계 관계자는 “AI가 기업 업무 전반에 확산되면서, 데이터를 구조화하고 모델이 이해할 수 있도록 만드는 전처리 기술이 AI 경쟁력의 핵심 요소가 되고 있다”며 “국내 기업들의 강점인 다국어 대응력과 특허 기반 기술이 글로벌 시장 확대의 디딤돌이 될 것”이라고 말했다.</p> <p contents-hash="18eaaa65873c2b1cb4018b13d65b3e05a0dca1b1b9c0b2c6bb01053a0f7f3ba8" dmcf-pid="XqIyuSo9ZN" dmcf-ptype="general">김명희 기자 noprint@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 '암투병 고백' 이솔이 방부제 미모.."근육 1kg 2000만원 가치" 06-29 다음 국방, AI 도입 속도…관련 인프라 예산도 신청 06-29 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.