소수 영상만 보고 인간처럼 판단…KAIST, 피지컬AI 난제 ‘VOTP’ 개발

작성일 06-10

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">소수 선호영상만으로 판단<br>AI 응용기술 효율화 기대</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="PLCv3hhDT4">
          <figure class="figure_frm origin_fig" contents-hash="755beb691a012f2e89d3c71ac6e9965f8249290d81b7ccfc5792d247554e5c24" dmcf-pid="QohT0llwCf" dmcf-ptype="figure">
           <p class="link_figure"><img alt="VOTP 연구 개념도. 사진제공=KAIST" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/10/seouleconomy/20260610140836775wygr.jpg" data-org-width="800" dmcf-mid="6UnaILLxW8" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/10/seouleconomy/20260610140836775wygr.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            VOTP 연구 개념도. 사진제공=KAIST
           </figcaption>
          </figure>
          <p contents-hash="349146791681a1f8f0405df0013169f3f21effe925dba83737c77185fb3016e5" dmcf-pid="xglypSSrWV" dmcf-ptype="general">단 몇 개의 영상만으로 인공지능(AI)이 인간의 판단 기준을 학습할 수 있는 피지컬 AI 원천기술이 국내에서 나왔다. 사람이 수천~수만 건의 로봇 행동을 직접 평가하지 않아도 AI가 인간의 의도에 맞는 행동을 스스로 학습할 수 있어 로봇과 자율주행차, AI 에이전트 개발에 필요한 시간과 비용을 크게 줄일 수 있을 것으로 기대된다.</p>
          <p contents-hash="453e54013d3996bf4362bc62448d213f476158406ab616ea8e059715fb60e7c8" dmcf-pid="ywXt9ZZvS2" dmcf-ptype="general">KAIST는 10일 유창동 전기및전자공학부 교수 연구팀이 소수의 선호 영상만으로 인간의 판단 기준을 학습하는 ‘VOTP(Video-based Optimal TransPort Preference)’ 기술을 세계 최초로 개발했다고 밝혔다.</p>
          <p contents-hash="6eda12c3db3777f8c49411f2d82cdb05104810bc09eb6c4c13ef43a5a48490da" dmcf-pid="WrZF255Tv9" dmcf-ptype="general">피지컬 AI는 텍스트와 이미지를 생성하는 AI를 넘어 로봇이나 자율주행차처럼 현실 세계에서 직접 움직이고 행동하는 AI를 의미한다. 공장에서 위험한 작업을 대신 수행하는 로봇, 복잡한 도로 상황을 판단하는 자율주행차, 정교한 수술을 수행하는 의료 로봇 등이 대표적이다.</p>
          <p contents-hash="f885f89f38d38b8514eae3be5b38260fa830783a55364b4dbb2939f8299ed361" dmcf-pid="Ym53V11yCK" dmcf-ptype="general">피지컬 AI가 실제 현장에서 활용되려면 기계가 어떤 행동이 인간의 의도에 더 부합하는지 판단할 수 있어야 한다. 이를 위해서는 AI가 좋은 행동과 나쁜 행동을 구분하는 기준인 ‘보상함수’를 학습해야 한다. 하지만 기존에는 보상함수를 만들기 위해 사람이 로봇의 행동을 수천~수만 차례 직접 보고 평가해야 했다. 이 과정에 막대한 시간과 비용이 들어 피지컬 AI 상용화의 주요 장벽으로 꼽혀 왔다.</p>
          <p contents-hash="47020a65b59334a19069d79682daf6f87bd2deb2804a7cd1a3ee3ee51f7d8f23" dmcf-pid="Gs10fttWWb" dmcf-ptype="general">유 교수팀은 사람이 몇 번의 시범만 보고도 새로운 일을 배운다는 점에 주목했다. 연구팀이 개발한 VOTP는 10개 안팎의 좋은 시범 영상과 나쁜 시범 영상만으로 AI가 인간이 선호하는 행동 패턴을 파악하도록 설계됐다. 비디오 AI가 로봇 행동의 미세한 차이를 시각적으로 분석하고, ‘최적 전송’이라는 수학적 기법을 활용해 수많은 영상에 대한 선호도를 자동으로 유추하는 방식이다.</p>
          <p contents-hash="9536deca2006a452feaf690a9dd72d47a6d432e9d7f7d7eff1e76fffeedb269a" dmcf-pid="HOtp4FFYlB" dmcf-ptype="general">이를 통해 AI는 사람이 일일이 평가하지 않은 다양한 상황에서도 어떤 행동이 더 바람직한지 스스로 판단하고 인간의 의도에 맞는 행동을 학습할 수 있다. 연구팀은 다양한 환경과 작업을 대상으로 한 실험에서 VOTP의 학습 효율성과 일반화 성능을 확인했다고 설명했다.</p>
          <p contents-hash="6a1b782ff313d67c9cdd396427f0352fe9e9c104d57c91ed5720da239cc23624" dmcf-pid="XIFU833Glq" dmcf-ptype="general">이번 기술은 로봇 팔 제어와 휴머노이드 로봇, 자율주행차, 스마트팩토리, 드론, 수술 로봇 등 피지컬 AI 전반에 적용될 수 있다. 컴퓨터 화면을 보고 스스로 작업을 수행하는 소프트웨어 AI 에이전트에도 활용 가능성이 있다. 특히 새로운 로봇을 산업 현장에 도입할 때 전문가가 현장 영상 몇 개만 선별해 평가하면 AI가 이를 바탕으로 다수의 상황을 분석하고 최적의 행동을 학습할 수 있어 테스트 기간과 데이터 구축 비용을 줄일 수 있다.</p>
          <p contents-hash="c049cc621a2ea700347b44124c2fcfc034b9d8e12f902faf273251293d1d8e23" dmcf-pid="ZC3u600Hyz" dmcf-ptype="general">이번 연구에는 전기및전자공학부 루 민 퉁 박사과정 학생이 제1저자로 참여했다. 연구 논문은 오는 7월 서울 코엑스에서 열리는 세계적 AI 학회 ‘ICML 2026’에 채택됐으며 전체 제출 논문 2만3918편 가운데 상위 0.7%인 168편에만 주어지는 구두 발표 논문으로 선정됐다.</p>
          <p contents-hash="ac4f84ae9a14dbc49a5bc328a32f256a88a7017bd873ddb51123166fc2e7ccd6" dmcf-pid="5h07PppXy7" dmcf-ptype="general">서지혜 기자 wise@sedaily.com</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 서울경제. 무단전재 및 재배포 금지.</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

소수 영상만 보고 인간처럼 판단…KAIST, 피지컬AI 난제 ‘VOTP’ 개발

멤버랭킹

관련자료

멤버랭킹