이용자가 원하는 '영상 속 그 순간' AI로 찾는다...KAIST, 이화여대와 기술 개발 작성일 11-28 31 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="K70wZ0sAEO"> <figure class="figure_frm origin_fig" contents-hash="cb7d5fc77f78cb33465b9cf4c9c256e5a59eee89a3c6d657f7cc6b6c351c1035" dmcf-pid="9zpr5pOcIs" dmcf-ptype="figure"> <p class="link_figure"><img alt="참여 연구원들. 왼쪽부터 KAIST 전산학부의 서진환·조윤기 박사과정, 윤성의 교수. 좌측 상단 사진은 노준혁 이화여대 인공지능학과 조교수." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/28/etimesi/20251128103249053dbju.png" data-org-width="691" dmcf-mid="bfBhpBvmOI" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/28/etimesi/20251128103249053dbju.png" width="658"></p> <figcaption class="txt_caption default_figure"> 참여 연구원들. 왼쪽부터 KAIST 전산학부의 서진환·조윤기 박사과정, 윤성의 교수. 좌측 상단 사진은 노준혁 이화여대 인공지능학과 조교수. </figcaption> </figure> <p contents-hash="3cec01b8ab296a62fdc64e8ab31c699065593a6e957a129be9d9eef6a5fa99cf" dmcf-pid="2qUm1UIkmm" dmcf-ptype="general">'카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇 인가요?'라는 복잡한 질문이 나오면 인공지능(AI)은 영상 속 상황을 보고 판단하는 것이 아니라, 언어 패턴에 의존해 '그럴듯한 답'을 추측하곤 한다. 기존 AI의 한계다. 이런 가운데 한국과학기술원(KAIST·총장 이광형) 연구진이 이런 한계를 해결하기 위해 영상 속 '중요한 순간(트리거 모먼트)'을 AI가 스스로 찾아내도록 하는 기술을 개발, 국제 AI 대회에서 우수성을 입증했다.</p> <p contents-hash="888e7531053de1f1200d9a03a58ed3c7380b781abb6c331abe59ba9fc7e47674" dmcf-pid="VBustuCEIr" dmcf-ptype="general">KAIST는 윤성의 전산학부 교수팀이 노준혁 이화여대 교수팀과 공동 연구로 컴퓨터 비전 학회 ICCV 2025에서 열린 인지 테스트 대회 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다.</p> <p contents-hash="6ca82c1832e0e3f9f24b620dfbda086ac75a0835cf3cac175e625007f832585e" dmcf-pid="fb7OF7hDrw" dmcf-ptype="general">이번 인지 테스트 대회는 구글 딥마인드가 주관해 총 상금 5만 유로(약 8300만원)가 걸린 대회로, 영상·음성·텍스트 등 다양한 데이터를 종합 이해하는 멀티모달 AI 인지·추론 능력을 평가한다. 특히 실제 영상을 바탕으로 판단하는 능력이 핵심 평가 요소다.</p> <p contents-hash="a362f17737b720383983233e0c1199b5e94df1574fc4c422c66ade468dab38a8" dmcf-pid="4KzI3zlwsD" dmcf-ptype="general">KAIST 연구팀은 영상 전체를 무작정 분석하는 기존 방식과 달리, AI가 정답을 위해 꼭 필요한 핵심 장면을 먼저 찾아내도록 만드는 새로운 기술을 개발했다. 이 프레임워크를 연구팀은 CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)라고 부른다.</p> <p contents-hash="804f2c708dec51d8dc9a419d326b0eb78aebfd826711d544b512b8361afd0712" dmcf-pid="8zpr5pOcDE" dmcf-ptype="general">연구팀의 시스템은 서로 다른 기능을 수행하는 세 모델이 순차적으로 작동하는 3단계 구조로 구성된다. 먼저 추론 AI(제미나이 2.5 프로)가 질문에 답하기 위해 어느 순간을 봐야 하는지 사고하고 트리거 모먼트 후보를 찾는다. 다음으로 객체 위치 찾기 모델(Molmo-7B)이 해당 순간 화면 속 사람·차·사물의 정확한 위치(좌표)를 파악한다. 마지막으로 추적 모델(SAM2)이 선택된 한 장면을 기준으로 앞뒤 시간대의 객체 움직임을 정밀하게 추적해 오류를 줄인다.</p> <p contents-hash="fcd561ed2132e883773acf3f25e29eee640ce75c8a99989daddc10cf41d94d63" dmcf-pid="6qUm1UIkEk" dmcf-ptype="general">핵심 장면 한 컷을 정확히 찍고, 그 장면을 중심으로 정답 근거를 추적하는 방식 덕분에 영상 초반 오판이나 가려짐 같은 문제도 크게 줄었다.</p> <p contents-hash="ce9255620e61bea7ad66569575d28c353a0156dc68cd79fe3e3b8493be59203b" dmcf-pid="PBustuCEsc" dmcf-ptype="general">총 23개 팀이 참여한 영상 근거 기반 질의응답 트랙에서 KAIST팀 SGVR Lab(Scalable Graphics, Vision & Robotics Lab)은 '고차 추적 정확도(HOTA)'지표에서 0.4968점을 기록, 2등 미국 콜럼비아대(0.4304점)를 압도하며 1위를 차지했다. 전년도 우승 기록 0.2704점보다도 약 두 배에 가까운 성과다.</p> <p contents-hash="2c7d4cceab221d410e5fcbc80b596e574c3b7b9bc88953aeae1b2276cbc13038" dmcf-pid="Qb7OF7hDrA" dmcf-ptype="general">이 기술은 실생활에서도 넓게 쓰일 수 있다. 자율주행차는 사고 위험이 있는 순간을 정확히 보고, 로봇은 주변 상황을 더 똑똑하게 이해한다. 또 보안·감시 시스템은 중요한 장면을 빠르게 찾아내고, 미디어 분석에서는 사람이나 사물의 행동을 시간 순서대로 정확히 추적할 수 있다.</p> <p contents-hash="2f1dfcd09b8e5a3f907e4bde161726ebf06221f116250109c4bd0fd1869584cb" dmcf-pid="xKzI3zlwmj" dmcf-ptype="general">김영준 기자 kyj85@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 '붉은 행성' 화성서 전기방전 첫 포착 [여기는 화성] 11-28 다음 우리나라도 10대 SNS 이용 차단 필요할까…"찬성"vs"반대" 11-28 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.