AI가 음성·이미지에 영상까지 이해…영화 '그녀' 현실화하나

작성일 05-18

<div id="layerTranslateNotice" style="display:none;"></div> 멀티모달 AI 부상…음성으로 시각장애인 택시 승차도 도와 초상권 침해 등 부작용 우려도…네카오·트웰브랩스 등 도전장 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="HTzxJqj4Zv">
 <figure class="figure_frm origin_fig" contents-hash="2f87b7096bd70ee69542379bd23ab11f2ff060908a8c34ce0f64c5fb704bc3c6" dmcf-pid="XyqMiBA8YS" dmcf-ptype="figure">
 <img alt="GPT-4o를 이용해 시각장애인이 택시를 부르는 모습 [오픈AI 유튜브 캡처]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036247mvwl.jpg" data-org-width="500" dmcf-mid="WDhtUl9HZW" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036247mvwl.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 GPT-4o를 이용해 시각장애인이 택시를 부르는 모습 [오픈AI 유튜브 캡처]
 </figcaption>
 </figure>
 (서울=연합뉴스) 김현수 기자 = 챗GPT 개발사인 오픈AI는 지난해 생성형 인공지능(AI) 'GPT-4o'를 활용해 시각장애인이 택시를 부르는 장면을 공개해 화제를 낳았다.
 시각장애인이 도로를 향해 스마트폰 카메라를 비추며 '빈 택시를 찾아줘'라고 말하자, GPT-4o가 '택시 한 대가 다가오니 부를 준비를 하세요'라고 안내했다.
 이처럼 이용자가 음성으로 질문하거나, 사진·영상을 입력하면 AI가 음성으로 답을 내놓는 시각언어모델(VLM) 개발 경쟁이 치열해지고 있다.
 VLM은 텍스트와 시각 데이터를 동시에 학습하는 멀티모달 학습에 기반하는데, 주변 상황 등 시각 데이터를 인식할 수 있어 교육·의료·상거래 등 다양한 분야에서 활용도가 높을 것이란 전망이 나온다.
 쇼핑몰 이미지를 VLM이 인식해 맞춤형 광고 문구를 제안하거나, 특정 여행지에 대한 홍보 이미지·영상 콘텐츠를 생성하는 게 대표적이다. 흉부 엑스레이 이미지를 인식한 VLM이 의사를 보조해 리포트를 생성할 수도 있다.
 이같은 VLM 기술로 인해 AI와 사랑에 빠진 한 남성의 이야기를 그린 영화 '그녀'(Her) 속 세상이 점점 현실화하고 있다는 평가도 나온다.
 <figure class="figure_frm origin_fig" contents-hash="bce449ef08f0a171e864a100fa9a2c962858f4ee68c1e110b4d0510d604daaf9" dmcf-pid="0YbeLKkPZm" dmcf-ptype="figure">
 <img alt="영화 '그녀'(her) 속 장면 [유니버설 픽쳐스 유튜브 캡처]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036401awuc.jpg" data-org-width="500" dmcf-mid="YDdDOJyj5y" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036401awuc.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 영화 '그녀'(her) 속 장면 [유니버설 픽쳐스 유튜브 캡처]
 </figcaption>
 </figure>
 다만, 초상권 도용, 허위 정보 생성 등 해결 과제도 적지 않다.
 지난해 GPT-4o가 공개된 후 챗GPT의 음성이 미국 유명 배우 스칼릿 조핸슨의 목소리와 유사하다는 논란이 일자, 오픈AI는 해당 음성을 일시 중단한 바 있다.
 텍스트·이미지를 결합한 데이터를 학습한 멀티모달 모델을 통해 사진 속 풍경, 위치정보 등을 분석해 이용자의 신원을 추론하거나 음성 등을 결합한 가짜 콘텐츠 생성에 악용할 수 있다는 우려도 나온다.
 그럼에도 불구하고 후발주자인 국내 업계를 포함해 전 세계적으로 자체 VLM 모델을 개발하려는 시도는 뜨겁다.
 18일 ICT 업계에 따르면 네이버의 생성형 AI '하이퍼클로바X SEED 3B'가 개발자 플랫폼 허깅페이스에서 지난 16일 기준 누적 다운로드 12만회를 넘었다.
 지난달 24일 허깅페이스에 공개된 해당 모델은 네이버가 오픈소스로 공개한 첫 생성형 AI다. 네이버의 자체 생성형 AI '하이퍼클로바X' 경량 모델이자, 텍스트·이미지·영상 정보를 처리할 수 있는 VLM이다.
 도표 이해, 개체 인식, 사진 묘사 등 성능을 갖췄으며, 관광 가이드, 시각적 콘텐츠 분석, 이미지 기반 질의응답 시스템 등 다양한 분야에 활용이 가능하다고 네이버는 설명했다. 한국어 맥락의 시각 데이터 처리에 특화된 점도 장점이다.
 네이버 관계자는 "한국어에 특화된 경량 모델인 점을 고려하면 오픈소스 커뮤니티에서 좋은 반응을 얻고 있다"고 전했다.
 <figure class="figure_frm origin_fig" contents-hash="84829948cce5b43187a8f9dca3590eb38fefd3a572f900059f6c14fafa3d928e" dmcf-pid="K3PNEQCn5N" dmcf-ptype="figure">
 <img alt="네이버 생성형 AI '하이퍼클로바X SEED' [네이버 제공]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036630gqbq.jpg" data-org-width="500" dmcf-mid="GreEsdTNHT" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/18/yonhap/20250518070036630gqbq.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 네이버 생성형 AI '하이퍼클로바X SEED' [네이버 제공]
 </figcaption>
 </figure>
 카카오는 지난 1일 텍스트·오디오를 이해하는 오디오 언어모델 '카나나-a', 이미지, 오디오 모두를 이해하는 '카나나-o' 성능을 공개했다.
 카카오에 따르면 카나나-o는 한국어 및 영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했다. 한국어 벤치마크에서는 높은 우위를 보였다.
 초거대 AI 개발 기업 트웰브랩스도 멀티모달 AI 모델인 '마렝고'와 '페가수스'를 국내 기업의 영상 AI 모델로는 처음으로 아마존 AI 플랫폼 '베드록'에서 출시할 예정이다.
 엔씨소프트는 한국어 처리에 특화된 중소형 오픈소스 VLM '바르코 비전'을 지난해 공개했다.
 고삼석 동국대 AI융합대학 석좌교수는 "AI 기술을 영상 분야에 도입하는 것은 하나의 트렌드가 됐다"며 "네이버, 삼성전자 등이 LLM 모델을 개발하고 중견·중소 기업은 공개된 오픈소스 모델을 응용한 서비스를 개발하는 두 가지 전략을 적극 추진해야 한다"고 전했다.
 hyunsu@yna.co.kr
 ▶제보는 카톡 okjebo
 </section> 
 </div> 
 Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지

이전

자율주행 키우려는 구글 맞선다…네이버가 선보일 고정밀 지도는

05-18
다음

삼성SDS·삼성전자·네이버, 국가AI컴퓨팅센터 유력 컨소시엄 부상

05-18

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

AI가 음성·이미지에 영상까지 이해…영화 '그녀' 현실화하나

멤버랭킹

관련자료

멤버랭킹