AI가 음성·이미지에 영상까지 이해…영화 '그녀' 현실화하나 작성일 05-18 8 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">멀티모달 AI 부상…음성으로 시각장애인 택시 승차도 도와<br>초상권 침해 등 부작용 우려도…네카오·트웰브랩스 등 도전장</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="HTzxJqj4Zv"> <figure class="figure_frm origin_fig" contents-hash="2f87b7096bd70ee69542379bd23ab11f2ff060908a8c34ce0f64c5fb704bc3c6" dmcf-pid="XyqMiBA8YS" dmcf-ptype="figure"> <p class="link_figure"><img alt="GPT-4o를 이용해 시각장애인이 택시를 부르는 모습 [오픈AI 유튜브 캡처]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036247mvwl.jpg" data-org-width="500" dmcf-mid="WDhtUl9HZW" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036247mvwl.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> GPT-4o를 이용해 시각장애인이 택시를 부르는 모습 [오픈AI 유튜브 캡처] </figcaption> </figure> <p contents-hash="d5877cbc5fcabb8b7f4918eaa293b299f8706cdf0d698841b98a34282719ade3" dmcf-pid="ZWBRnbc61l" dmcf-ptype="general">(서울=연합뉴스) 김현수 기자 = 챗GPT 개발사인 오픈AI는 지난해 생성형 인공지능(AI) 'GPT-4o'를 활용해 시각장애인이 택시를 부르는 장면을 공개해 화제를 낳았다.</p> <p contents-hash="ea351158a91177b9e759b1479b53fa5823ce7844c1c81ef36274e42176e133a8" dmcf-pid="5YbeLKkPGh" dmcf-ptype="general">시각장애인이 도로를 향해 스마트폰 카메라를 비추며 '빈 택시를 찾아줘'라고 말하자, GPT-4o가 '택시 한 대가 다가오니 부를 준비를 하세요'라고 안내했다.</p> <p contents-hash="930370a9c3569ae5e72154118da73ae662c74a329801ac28b30ad509f8c9b08c" dmcf-pid="1GKdo9EQGC" dmcf-ptype="general">이처럼 이용자가 음성으로 질문하거나, 사진·영상을 입력하면 AI가 음성으로 답을 내놓는 시각언어모델(VLM) 개발 경쟁이 치열해지고 있다.</p> <p contents-hash="47c58bb7da920cdd8c24e5b3a16c2c9d08bda90f478e88453c28d096e5144b9d" dmcf-pid="tH9Jg2DxtI" dmcf-ptype="general">VLM은 텍스트와 시각 데이터를 동시에 학습하는 멀티모달 학습에 기반하는데, 주변 상황 등 시각 데이터를 인식할 수 있어 교육·의료·상거래 등 다양한 분야에서 활용도가 높을 것이란 전망이 나온다.</p> <p contents-hash="41f2c29a84fefed785ff4c6a4749b0c368d54bd8b9ac744520bc8d7fa70a219d" dmcf-pid="FX2iaVwMXO" dmcf-ptype="general">쇼핑몰 이미지를 VLM이 인식해 맞춤형 광고 문구를 제안하거나, 특정 여행지에 대한 홍보 이미지·영상 콘텐츠를 생성하는 게 대표적이다. 흉부 엑스레이 이미지를 인식한 VLM이 의사를 보조해 리포트를 생성할 수도 있다.</p> <p contents-hash="f5473b9edf37f3425b36a33e88843fc338cbca2d8387a20a45f420a923d8a5e5" dmcf-pid="3WBRnbc6Ys" dmcf-ptype="general">이같은 VLM 기술로 인해 AI와 사랑에 빠진 한 남성의 이야기를 그린 영화 '그녀'(Her) 속 세상이 점점 현실화하고 있다는 평가도 나온다.</p> <figure class="figure_frm origin_fig" contents-hash="bce449ef08f0a171e864a100fa9a2c962858f4ee68c1e110b4d0510d604daaf9" dmcf-pid="0YbeLKkPZm" dmcf-ptype="figure"> <p class="link_figure"><img alt="영화 '그녀'(her) 속 장면 [유니버설 픽쳐스 유튜브 캡처]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036401awuc.jpg" data-org-width="500" dmcf-mid="YDdDOJyj5y" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036401awuc.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 영화 '그녀'(her) 속 장면 [유니버설 픽쳐스 유튜브 캡처] </figcaption> </figure> <p contents-hash="aa54744ea2cdf05e99792723cfc8a70f9ba74179fd94802fa8880e26685dfd22" dmcf-pid="pGKdo9EQtr" dmcf-ptype="general">다만, 초상권 도용, 허위 정보 생성 등 해결 과제도 적지 않다.</p> <p contents-hash="4da13c56cbb00996d0660e89c9e09f904da7ddee686db37b139ce9d3cf21eef6" dmcf-pid="UH9Jg2DxZw" dmcf-ptype="general">지난해 GPT-4o가 공개된 후 챗GPT의 음성이 미국 유명 배우 스칼릿 조핸슨의 목소리와 유사하다는 논란이 일자, 오픈AI는 해당 음성을 일시 중단한 바 있다.</p> <p contents-hash="251ec4c38c00431632acbc373f8e339cd04b5924595b6535986e947b423f96f1" dmcf-pid="uX2iaVwMYD" dmcf-ptype="general">텍스트·이미지를 결합한 데이터를 학습한 멀티모달 모델을 통해 사진 속 풍경, 위치정보 등을 분석해 이용자의 신원을 추론하거나 음성 등을 결합한 가짜 콘텐츠 생성에 악용할 수 있다는 우려도 나온다.</p> <p contents-hash="801423aa225c6938066490661c0ddde14ff55eeca89816071c3aca7adf65dba0" dmcf-pid="7ZVnNfrR5E" dmcf-ptype="general">그럼에도 불구하고 후발주자인 국내 업계를 포함해 전 세계적으로 자체 VLM 모델을 개발하려는 시도는 뜨겁다.</p> <p contents-hash="00d4693132c848c6bdedfc488c7402baa993d20bbead18c224912103708e555f" dmcf-pid="z5fLj4meYk" dmcf-ptype="general">18일 ICT 업계에 따르면 네이버의 생성형 AI '하이퍼클로바X SEED 3B'가 개발자 플랫폼 허깅페이스에서 지난 16일 기준 누적 다운로드 12만회를 넘었다.</p> <p contents-hash="7a04faee5291eb72c016c1b114d15d040d98c9934b52deaedd47fd234986ddea" dmcf-pid="q14oA8sdtc" dmcf-ptype="general">지난달 24일 허깅페이스에 공개된 해당 모델은 네이버가 오픈소스로 공개한 첫 생성형 AI다. 네이버의 자체 생성형 AI '하이퍼클로바X' 경량 모델이자, 텍스트·이미지·영상 정보를 처리할 수 있는 VLM이다.</p> <p contents-hash="9a85b6a2eca6ed4135a603d3311cff7b3bd596cbb5031030eb4743245c89e4b4" dmcf-pid="Bt8gc6OJtA" dmcf-ptype="general">도표 이해, 개체 인식, 사진 묘사 등 성능을 갖췄으며, 관광 가이드, 시각적 콘텐츠 분석, 이미지 기반 질의응답 시스템 등 다양한 분야에 활용이 가능하다고 네이버는 설명했다. 한국어 맥락의 시각 데이터 처리에 특화된 점도 장점이다.</p> <p contents-hash="2807515b9aee172d0b1d336af287983179a517c780c64d474a524545382a3468" dmcf-pid="bF6akPIi1j" dmcf-ptype="general">네이버 관계자는 "한국어에 특화된 경량 모델인 점을 고려하면 오픈소스 커뮤니티에서 좋은 반응을 얻고 있다"고 전했다.</p> <figure class="figure_frm origin_fig" contents-hash="84829948cce5b43187a8f9dca3590eb38fefd3a572f900059f6c14fafa3d928e" dmcf-pid="K3PNEQCn5N" dmcf-ptype="figure"> <p class="link_figure"><img alt="네이버 생성형 AI '하이퍼클로바X SEED' [네이버 제공]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036630gqbq.jpg" data-org-width="500" dmcf-mid="GreEsdTNHT" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036630gqbq.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 네이버 생성형 AI '하이퍼클로바X SEED' [네이버 제공] </figcaption> </figure> <p contents-hash="691a1f964b432d78650cc3fdd55fafcdf325fadee4651a826b6811d13d142488" dmcf-pid="9dsXFOqyZa" dmcf-ptype="general">카카오는 지난 1일 텍스트·오디오를 이해하는 오디오 언어모델 '카나나-a', 이미지, 오디오 모두를 이해하는 '카나나-o' 성능을 공개했다.</p> <p contents-hash="4098c5c333b0d0b600c94ab0476ba7a2f23d23869798a69b02be511e81b45018" dmcf-pid="2JOZ3IBWXg" dmcf-ptype="general">카카오에 따르면 카나나-o는 한국어 및 영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했다. 한국어 벤치마크에서는 높은 우위를 보였다.</p> <p contents-hash="25e09efdb951350d65db9f547b5036021eb70aae58078358ce8918c0619843c6" dmcf-pid="ViI50CbYXo" dmcf-ptype="general">초거대 AI 개발 기업 트웰브랩스도 멀티모달 AI 모델인 '마렝고'와 '페가수스'를 국내 기업의 영상 AI 모델로는 처음으로 아마존 AI 플랫폼 '베드록'에서 출시할 예정이다.</p> <p contents-hash="42556a2c6aa66654eb26b099e3bb0c0b38dcd341ae48757267d75aa7e550e8b5" dmcf-pid="fnC1phKG5L" dmcf-ptype="general">엔씨소프트는 한국어 처리에 특화된 중소형 오픈소스 VLM '바르코 비전'을 지난해 공개했다.</p> <p contents-hash="310f4b83f21de90241da41de3ff84885ccc5b10436d459cd8cc096e91c7255e7" dmcf-pid="4LhtUl9HXn" dmcf-ptype="general">고삼석 동국대 AI융합대학 석좌교수는 "AI 기술을 영상 분야에 도입하는 것은 하나의 트렌드가 됐다"며 "네이버, 삼성전자 등이 LLM 모델을 개발하고 중견·중소 기업은 공개된 오픈소스 모델을 응용한 서비스를 개발하는 두 가지 전략을 적극 추진해야 한다"고 전했다.</p> <p contents-hash="6bf3d252d96d801947fb373f2466a7fdcc24a2f363bd787b91e54c4401d4e038" dmcf-pid="8olFuS2XGi" dmcf-ptype="general">hyunsu@yna.co.kr</p> <p contents-hash="b6fad5a4f4748f3e25aa64b8ddd84d3c450cae071d13b8a935d4dbbb547cb760" dmcf-pid="Pav0zTf5Xd" dmcf-ptype="general">▶제보는 카톡 okjebo</p> </section> </div> <p class="" data-translation="true">Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지</p> 관련자료 이전 자율주행 키우려는 구글 맞선다…네이버가 선보일 고정밀 지도는 05-18 다음 삼성SDS·삼성전자·네이버, 국가AI컴퓨팅센터 유력 컨소시엄 부상 05-18 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.