[트렌드줌인] AI 구원자로 부상한 합성 데이터 작성일 07-01 26 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="GmDYCSo9yD"> <p contents-hash="a09854e36f135fcba36e500af07fbf3cc2c0e6c40c693e7eb385850a77fe638c" dmcf-pid="H6foMd7vhE" dmcf-ptype="general">인공지능(AI) 이용이 늘어나면서 주목받는 것이 합성 데이터(synthetic data)다. 합성 데이터는 실제 자료를 토대로 만든 인공 자료다. AI가 실제 자료의 구조와 형태 등을 학습해 유사하게 만든다.</p> <p contents-hash="6ab62f23bf15bf84600e11bdc49a968356ea6c4e1a3a9b85afccd1ae90728a87" dmcf-pid="XP4gRJzTTk" dmcf-ptype="general">합성 데이터를 만드는 이유는 비용과 시간 절약, 민감한 자료 확보 문제 때문이다. AI 학습에 필요한 많은 자료를 일일이 수집하려면 시간과 비용이 많이 든다. 따라서 합성 데이터로 대체하면 AI 개발에 필요한 시간과 비용을 줄일 수 있다.</p> <p contents-hash="4547c833b49ad975e705160717f0776c62c1e2e7a7a048fa4015f3013936a8d6" dmcf-pid="ZQ8aeiqyCc" dmcf-ptype="general">또 민감한 정보를 보호할 수 있다. 예를 들어 의료 AI 개발을 위해 환자 자료를 활용할 경우 누구인지 알 수 있는 이름과 전화번호, 주소 등 개인정보를 가려야 한다. 국방이나 산업설비 등 국가와 기업의 기밀을 다루는 AI도 학습할 때 특정 정보를 노출하지 않도록 주의해야 한다. 이때 합성 데이터를 만들어 AI를 학습시키면 개인 정보를 침해하거나 국가 및 기업 비밀을 노출하는 위험을 피할 수 있다.</p> <p contents-hash="55c689cd500fd2cc29225f23d2389071ee2bc80f0aff7ef8eccea35b2bf2439a" dmcf-pid="5x6NdnBWvA" dmcf-ptype="general">희귀 자료를 확보할 수도 있다. 예를 들어 화산 폭발처럼 자주 발생하지 않는 재난 자료나 폭격 등 전시 상황에서 발생하는 자료 등은 일상에서 얻기 어렵다. 이런 경우 인공으로 합성 데이터를 만들어 활용할 수밖에 없다.</p> <p contents-hash="c241a231afeb03d4350dfef326bd98eaa517aab8c0321df0ce557f069599bfee" dmcf-pid="1MPjJLbYyj" dmcf-ptype="general">이처럼 여러 이유로 많은 기업이 합성 데이터를 AI 학습에 활용하고 있다. 미국 AI개발업체 오픈AI는 'GPT4'보다 강력한 성능의 '오리온' AI 개발에 합성 데이터를 사용하고 있으며 구글과 마이크로소프트, 앤트로픽 등도 AI 학습에 합성 데이터를 투입했다. 미국 전기자동차 업체 테슬라는 도로 위 돌발상황이나 각종 사고 등을 합성 데이터로 만들어 자율주행 훈련을 한다.</p> <p contents-hash="515d65d0667339e067b6933764d644c310fe2a164bcf975e83bbffd706c7a43e" dmcf-pid="tRQAioKGlN" dmcf-ptype="general">국내에서는 국방 AI를 개발하는 신생기업(스타트업) 펀진이 AI용 합성 데이터를 생성하는 도구인 '이글아이'를 개발해 활용한다. 이글아이는 정찰, 위협탐지 등 수집이 어려운 군의 작전 환경 자료를 자동 생성한다.</p> <figure class="figure_frm origin_fig" contents-hash="3dd700370f6cdfbbc10b2e136ce18f03be0b9c2a8bdc696652f796a241ebd93d" dmcf-pid="Fexcng9Hva" dmcf-ptype="figure"> <p class="link_figure"><img alt="펀진에서 개발한 AI용 합성 데이터 생성 소프트웨어 '이글아이'로 만든 잠수함 이미지들. 펀진 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/01/hankooki/20250701050125364lbhq.png" data-org-width="640" dmcf-mid="YRjSrOdzTw" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/01/hankooki/20250701050125364lbhq.png" width="658"></p> <figcaption class="txt_caption default_figure"> 펀진에서 개발한 AI용 합성 데이터 생성 소프트웨어 '이글아이'로 만든 잠수함 이미지들. 펀진 제공 </figcaption> </figure> <p contents-hash="d97a66ea9da82ec347f5afb9c3813236a4ace4591c3d3f281d3fe02f3ea3cb3f" dmcf-pid="3dMkLa2Xlg" dmcf-ptype="general">합성 데이터의 중요성이 커지면서 관련 스타트업을 인수하는 대기업들도 있다. AI 반도체를 만드는 엔비디아는 지난 3월 합성 데이터 플랫폼 업체 그레텔을, 기업용 소프트웨어 개발업체 SAS는 지난해 11월 합성 데이터 플랫폼 업체 헤이지를 각각 인수했다. </p> <p contents-hash="b6552ac983fe227fd2bd271aa5facbaedabfab2fb757bdef343f42946e42cca5" dmcf-pid="0JREoNVZTo" dmcf-ptype="general">앞으로 합성 데이터의 중요성은 더 커질 전망이다. 가트너는 2028년까지 합성 데이터가 AI 학습에 필요한 자료의 80%를 차지할 것으로 내다봤다. 다만 잘못된 합성 데이터가 AI의 정확성을 떨어뜨릴 수 있어 이를 해결하기 위한 기술 개발 등이 과제다.</p> <p contents-hash="c6c06f574e33a6f44120b1227fdacb038693d5cb554c67745e00fdd705c4f47f" dmcf-pid="pieDgjf5vL" dmcf-ptype="general">최연진 IT전문기자 wolfpack@hankookilbo.com</p> </section> </div> <p class="" data-translation="true">Copyright © 한국일보. 무단전재 및 재배포 금지.</p> 관련자료 이전 소버린 AI 경쟁시대 '살아남을 기술' 만들어야 산다 [트랜D] 07-01 다음 "나에겐 너뿐이야"...'챗GPT 정신병' 죽음의 문턱까지 가는 사람들 [쓸만한 이슈] 07-01 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.