"덩치는 10분의 1, 성능은 더 강력"… 애플, 온디바이스 AI '모바일 클립' 발표

작성일 03-26

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">[MOVIEW] 이미지 분석 효율 1000배 높여</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="zEmhC9nQT4">
          <figure class="figure_frm origin_fig" contents-hash="7bf5e23c1db0c4ddaac0192e1c796083d4dd2e5f8ad87965edc67c1331667d62" dmcf-pid="qshyT8NdWf" dmcf-ptype="figure">
           <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/26/552796-pzfp7fF/20260326104725466nfnb.jpg" data-org-width="512" dmcf-mid="7jXFtisAW8" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/26/552796-pzfp7fF/20260326104725466nfnb.jpg" width="658"></p>
          </figure>
          <p contents-hash="90cdb4180e87585012c680a48f52dbedec42a052f8ab399fee483a971c608787" dmcf-pid="BOlWy6jJlV" dmcf-ptype="general">[디지털데일리 김문기기자] 애플이 기존 대형 모델 대비 크기를 10분의 1 수준으로 줄이면서도 이미지와 텍스트를 연결하는 성능은 오히려 앞서는 혁신적인 인공지능(AI) 모델 '모바일 클립(MobileCLIP)'을 공개하며 온디바이스 AI 리더십 확보에 나섰다.</p>
          <p contents-hash="69a1b49ab84a472fab5f7c692bb63d8c57880d96935e9e3102fec3febb4c88b8" dmcf-pid="bISYWPAiy2" dmcf-ptype="general">26일(현지시간) 애플 기계학습(ML) 연구팀은 논문 공유 사이트 아카이브(arXiv)를 통해 새로운 효율적 이미지-텍스트 모델군인 모바일 클립을 발표했다. 이 모델은 아이폰과 같은 모바일 기기 내에서 지연 시간 없이 구동되도록 최적화되었으며, 매개변수가 10배 이상 많은 오픈AI(OpenAI)의 '클립(CLIP)' 모델보다 빠른 속도와 높은 정확도를 기록했다. 특히 연구팀은 모델 학습 과정에서 10배에서 최대 1000배까지 학습 효율을 개선했다고 밝혔다.</p>
          <p contents-hash="b5d56d97e0d186381cc726989dd806b6e0a372ca2ba6c5d3f549cdc37c44743d" dmcf-pid="KCvGYQcnh9" dmcf-ptype="general">모바일 클립의 핵심은 '다중 모달 강화 학습(Multi-Modal Reinforced Training)' 기법에 있다. 이는 이미지 캡셔닝 모델과 강력한 클립 앙상블 모델로부터 지식을 전수받는 방식으로, 학습 시에만 고성능 모델의 도움을 받고 실제 추론 시에는 가벼운 모델이 독립적으로 작동하게 한다. 이를 통해 아이폰12 프로 맥스 등 실제 기기에서 3~15ms(밀리초) 수준의 극히 낮은 지연 시간으로 실시간 이미지 분석이 가능해졌다.</p>
          <p contents-hash="acfc421bcf630f80e4fe14633b9e9e90be3f235268e154d8ff88a494d9ca606b" dmcf-pid="9hTHGxkLlK" dmcf-ptype="general">기술적으로는 합성 캡션(Synthetic Captions)과 강력한 이미지 증강 기법을 활용해 데이터의 질을 높였다. 기존 이미지-텍스트 쌍은 설명이 짧고 추상적인 경우가 많으나, 모바일 클립은 추가적인 캡션 생성 모델을 통해 이미지 속 객체의 세세한 특징까지 학습했다. 또한 학습 시에만 복잡한 구조를 사용하고 추론 시에는 단순화하는 '훈련-추론 디커플링(Training-Inference Decoupling)' 기술을 적용해 효율성을 극대화했다.</p>
          <p contents-hash="e953d6fa4a5015e75b578410291bd6ead0dfb68fd1e8d6809b024005cdaabe94" dmcf-pid="2lyXHMEoCb" dmcf-ptype="general">업계에서는 애플의 이번 행보를 거대 모델(Foundation Model) 경쟁에서 벗어나 실제 사용자 환경에 즉각 적용 가능한 '실용주의 AI'로의 전환점으로 보고 있다. 클라우드 서버에 의존하지 않고 기기 자체에서 사진 라이브러리 검색, 실시간 화면 설명, 시각 장애인용 보조 도구 등을 고도화할 수 있기 때문이다. 이는 개인정보 보호와 전력 효율을 중시하는 애플의 제품 철학과도 궤를 같이한다.</p>
          <p contents-hash="c34fead9b593018572015926baecd1b4afd1ec0885c2db9ae4ffd64dacfc7c2c" dmcf-pid="VSWZXRDgCB" dmcf-ptype="general">이번 모바일 클립의 공개는 애플이 하드웨어 최적화 기반의 AI 시장에서 독보적인 기술력을 보유하고 있음을 시사한다. 단순히 매개변수를 늘려 성능을 과시하는 대신, 한정된 자원 안에서 최상의 퍼포먼스를 내는 '작고 강한 모델' 전략을 채택한 것이다. 향후 출시될 아이폰과 아이패드 시리즈에서 이러한 온디바이스 AI 성능이 경쟁사와의 격차를 벌리는 핵심 전술이 될 전망이다.</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

"덩치는 10분의 1, 성능은 더 강력"… 애플, 온디바이스 AI '모바일 클립' 발표

멤버랭킹

관련자료

멤버랭킹