'손가락 6개 인간' 없다··· 오픈AI 새 이미지 모델 등장 [윤민혁의 실리콘밸리View] 작성일 03-26 131 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="2v8Qv8JqCf"> <div contents-hash="7e2ae4fb41a40491830ae5ed2f0f8da57ccfc9fc69d14fd15bc8abb80cf3b0ad" dmcf-pid="VT6xT6iBCV" dmcf-ptype="general"> [서울경제] <p>‘추상화’ 수준에 머물며 때론 손가락이 여섯 개 달린 사람처럼 기괴한 결과를 내놓던 이미지 생성 인공지능(AI) 모델이 이제 과거의 유물이 될 전망이다. 오픈AI가 맥락과 그리는 대상에 대한 이해도를 한 층 높인 새 이미지 생성 인공지능(AI) 모델을 내놓은 덕이다. ‘그림’만 학습한 기존 이미지 모델에 GPT-4o 언어 모델이 결합하며 목적에 부합하는 이미지를 쉽게 생성할 수 있게 될 전망이다.</p> </div> <figure class="figure_frm origin_fig" contents-hash="df81dd9be55ac66b00b8af1ddcbd30e15100487c5a58ead3390954f2345c6532" dmcf-pid="fyPMyPnbl2" dmcf-ptype="figure"> <p class="link_figure"><img alt="챗GPT 이미지가 생성한 뉴턴의 프리즘 실험 인포그래픽. 실험에 대해 이해하고 명확한 설명과 폰트로 인포그래픽을 만들어낸다. 사진제공=오픈AI" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202503/26/seouleconomy/20250326033328690nbzh.png" data-org-width="512" dmcf-mid="b7xAparRC6" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202503/26/seouleconomy/20250326033328690nbzh.png" width="658"></p> <figcaption class="txt_caption default_figure"> 챗GPT 이미지가 생성한 뉴턴의 프리즘 실험 인포그래픽. 실험에 대해 이해하고 명확한 설명과 폰트로 인포그래픽을 만들어낸다. 사진제공=오픈AI </figcaption> </figure> <div contents-hash="c439e082c0f611a57d36e4c2199455a04c9172cfa0f283b71001a3edb628c73f" dmcf-pid="4WQRWQLKT9" dmcf-ptype="general"> <p>25일(현지 시간) 오픈AI는 새 이미지 AI ‘챗GPT 이미지(챗GPT 4o 이미지 생성)’를 출시했다. 이는 기존 DALL·E(달이)를 대체해 챗GPT의 기본 이미지 생성 모델이 된다. 오픈AI 관계자는 “GPT-4o의 언어 지식과 이미지 지능이 결합된 모델”이라며 “기존 모델이 참신했다면 이 모델은 유용하다”고 강조했다.</p> </div> <p contents-hash="fbef6c14ee3a283a2d5d2c789caf28a354b3c3c814ef737ea82973f62b69acba" dmcf-pid="82mI2mTNlK" dmcf-ptype="general">챗GPT 이미지는 DALL·E를 비롯한 기존 이미지 생성 모델과 근본부터 다르다. 기존 모델들은 ‘그림’만 학습했다. 때문에 그리는 대상에 대한 지식이 없다. AI가 무엇을 그리는지 이해하지 못하기에 학습하지 않은 '창의적인' 요구를 소화하는 데 어려움을 겪게 된다.</p> <p contents-hash="611e485348e7af9c1a1c8eb3c151f062522091fddecb3903cf1d5100afd0608e" dmcf-pid="6VsCVsyjlb" dmcf-ptype="general">일례로 DALL·E는 숫자와 문자를 삐뚤빼뚤 적는다. 숫자와 문자도 ‘그림’으로 해석해 마치 어린아이가 따라그리듯 생성해내는 것이다. 또 그림 내에 들어가야 할 대상에 대한 요구사항이 많아지면 이해하는데 어려움을 겪고 일반적이지 않은 요구는 인식하지 못한다. ‘초록색 차와 빨간색 나무를 그려달라’는 명령에도 빨간색 차량과 초록 나무를 출력하고, ‘자전거를 탄 사람’은 잘 그려내지만 ‘사람을 탄 자전거’는 그리기 힘들어 한다. 사전 학습된 이미지에 ‘특이한’ 그림이 드문 탓이다.</p> <figure class="figure_frm origin_fig" contents-hash="29d790426af2320d8788de048abbd74aa6b3dc9899b7f84fd76e754cbf6daa90" dmcf-pid="PfOhfOWAlB" dmcf-ptype="figure"> <p class="link_figure"><img alt="챗GPT 이미지는 글자를 모사하지 않고 제대로 적어낼 수 있다. 사진제공=오픈AI" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202503/26/seouleconomy/20250326033330014wmgv.png" data-org-width="341" dmcf-mid="KouqEuVZy8" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202503/26/seouleconomy/20250326033330014wmgv.png" width="658"></p> <figcaption class="txt_caption default_figure"> 챗GPT 이미지는 글자를 모사하지 않고 제대로 적어낼 수 있다. 사진제공=오픈AI </figcaption> </figure> <p contents-hash="5b257d1975d1de6c9e686cb5695072e08ef05e6ddad74e493960b38a05b20dd6" dmcf-pid="Q4Il4IYcTq" dmcf-ptype="general">DALL·E를 비롯한 기존 AI 이미지 생성 모델이 사람 손을 잘 그려내지 못하는 이유도 여기에 있다. AI는 신체 구조 전반에 대한 이해가 없이 팔 끝에는 손가락과 같은 형상이 달려 있어야 한다는 점만 배웠다. 학습한 이미지 중 대다수에서는 각도 문제로 손가락 다섯개가 모두 드러나지 않기도 한다. 때문에 기괴한 결과물이 나오게 된다.</p> <p contents-hash="aa10e437a2ce852bd1bd9fa40d056974ec1e56fceea0c4baa3124338cfd5768c" dmcf-pid="x8CS8CGkCz" dmcf-ptype="general">챗GPT 이미지는 그림 생성에 언어 모델을 결합해 문제를 해결했다. 언어 모델이 요구사항을 이해한 후 그림을 만들어내 보다 정확한 결과물을 만들어 낸다. 기존 학습하지 않은 ‘삼각형 바퀴의 자전거’도 쉽게 그려내고, ‘향유 고래를 그려달라’는 요구에 향유 고래의 종을 파악한 후 특징을 살린 이미지를 출력한다. 오픈AI 관계자는 “높은 강도의 스트레스 테스트에도 사람 손가락을 제대로 그려냈다”고 했다.</p> <p contents-hash="40f8eb5a941a144c85f45054bdba46e7887bbda3fdac40d2a381cb8cbba273e9" dmcf-pid="ylf6lfe7C7" dmcf-ptype="general">문자와 숫자에 대한 이해도 한층 개선됐다. 마치 타이핑하듯 정확히 그려낼 뿐 아니라 맥락 또한 이해한다. 각 컷의 대사가 합쳐져야 의미를 지니는 만평도 쉽게 만들어내고, 과학 실험을 설명한 인포그래픽도 원리를 이해해 쉽게 생성해낼 수 있다. 오픈AI 관계자는 “인포그래픽은 일부만 잘못돼도 전체를 버려야 한다”며 “새 모델이 교육 전반을 혁신할 수 있을 것”이라고 했다.</p> <figure class="figure_frm origin_fig" contents-hash="8cccbb98f5f3fc34d80449649114bdadc1560c09f96e543f635a70dd75fadf16" dmcf-pid="WS4PS4dzCu" dmcf-ptype="figure"> <p class="link_figure"><img alt="새 모델은 물 위를 달리는 말 같은 기존에 학습하지 않은 이미지도 쉽게 생성해낸다. 사진제공=오픈AI" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202503/26/seouleconomy/20250326033331372hmhd.png" data-org-width="640" dmcf-mid="9OIl4IYcW4" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202503/26/seouleconomy/20250326033331372hmhd.png" width="658"></p> <figcaption class="txt_caption default_figure"> 새 모델은 물 위를 달리는 말 같은 기존에 학습하지 않은 이미지도 쉽게 생성해낸다. 사진제공=오픈AI </figcaption> </figure> <p contents-hash="814e234670338d5e56d028ed8dfacb8037ca33af7954a5cc2015e2c106578a9d" dmcf-pid="Yv8Qv8JqSU" dmcf-ptype="general">챗GPT 이미지는 유료 구독자들은 물론 무료 사용자들에게도 제공된다. 영상 AI ‘소라’에도 새 모델의 언어 이해가 적용된다. 오픈AI가 최근 가속화중인 서비스 경쟁력 개선의 일환이다. 현재 구글 제미나이는 ‘이마젠’ 이미지 생성 모델을 제공 중이다. 중국 딥시크도 ‘야누스’라는 이름의 이미지 생성 모델을 출시한 바 있다. 테크계 한 관계자는 “기본적인 AI 모델 외 기능 전반에서 경쟁이 이뤄지고 있다”며 “오픈AI가 후발주자들이 상대적으로 놓치기 쉬운 이미지·영상·음성 등 분야에서 기능 개선으로 선두 지위를 공고히하고자 하는 것으로 보인다”고 평가했다.</p> <p contents-hash="3e371c67bf5a06980c44f2a5f92941c438e26b6fbfd9b105885ca1e075a879be" dmcf-pid="GT6xT6iBSp" dmcf-ptype="general">/실리콘밸리=윤민혁 특파원 beherenow@sedaily.com 실리콘밸리=윤민혁 특파원 beherenow@sedaily.com</p> </section> </div> <p class="" data-translation="true">Copyright © 서울경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 ‘지오비스타 (The GeoVista)’ 대한한국 ‘민감 국가 지정’, 배경과 파장은? 03-26 다음 ‘폭싹 속았수다’부터 ‘겨울연가’까지…특별한 OST 미라클라스와 특별한 추억을 함께 ‘더 팬 드라마 OST 콘서트’ 개최 03-26 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.