KAIST, '물리 특성' 고려해 더 실감나는 음향 제작 AI 구현...영화·게임 등 음향 제작 기여

작성일 05-26

<div id="layerTranslateNotice" style="display:none;"></div> 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="PKmLJgQ9mB">
 우리는 소리를 떠올릴 때, 소리를 내는 사물 형태뿐 아니라 크기·무게, 움직임 속도 같은 물리 특성까지 함께 고려한다. 다만 기존 영상-음향 생성 인공지능(AI)은 화면 속 사물 형태나 장면 정보에 주로 의존한다.
 이런 가운데 한국과학기술원(KAIST·총장 이광형)이 영상 속 물리 상황을 이해해 보다 현실감 있는 소리를 생성하는 AI '파바스(PAVAS)'를 개발했다 
 <figure class="figure_frm origin_fig" contents-hash="99f88cbbe31a62a83eaff22d9a598732254b8bc288d28af37b06e88ee3059ea9" dmcf-pid="yxyDcroMr7" dmcf-ptype="figure">
 <img alt="PAVAS 기술 개념도" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/26/etimesi/20260526180159551qobe.jpg" data-org-width="700" dmcf-mid="8gOgnNMVDK" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/26/etimesi/20260526180159551qobe.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 PAVAS 기술 개념도
 </figcaption>
 </figure>
 KAIST는 오태현 전산학부 교수팀이 포스텍, 소니 AI 공동 연구진과 함께 이같은 성과를 거뒀다고 26일 밝혔다.
 기술 핵심은 영상 속 물체의 질량과 속도 등 눈에 보이지 않는 물리 정보를 AI가 스스로 추론하도록 설계됐다는 점이다. AI가 주변 환경과 움직임 맥락을 분석해 이를 추정하고, 그 결과를 소리 생성 과정에 반영하도록 했다. '왜 이런 소리가 발생하는지'에 대한 물리적 원인까지 AI가 이해하도록 만든 것이다.
 기술 검증 결과, 연구팀 AI는 물체 간 충돌·타격 등 물리적 상호작용이 발생하는 장면에서 실제 환경과 매우 유사한 소리를 생성했다. 특히 물체 질량·속도가 달라질 때 소리 크기와 음색도 자연스럽게 변화하는 등 보다 현실감 있는 음향을 구현했다.
 기존 상용 AI 모델들이 영상·오디오를 함께 생성하는 데 집중했다면, 파바스는 영상 속 객체의 움직임과 충돌 특성을 분석해 장면과 정밀하게 맞아떨어지는 현실적인 효과음을 생성한다는 점에서 차별성을 가진다. 
 <figure class="figure_frm origin_fig" contents-hash="31fc6ef1f5306e64338229a3239e82dc27f278d4950402d3ec08322e771d6b70" dmcf-pid="XJXOrCAim3" dmcf-ptype="figure">
 <img alt="기존 영상→음향 생성 모델과 PAVAS가 생성한 음향의 스펙트로그램 비교" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/26/etimesi/20260526180200821sljw.jpg" data-org-width="700" dmcf-mid="6Rf0tUGhsb" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/26/etimesi/20260526180200821sljw.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 기존 영상→음향 생성 모델과 PAVAS가 생성한 음향의 스펙트로그램 비교
 </figcaption>
 </figure>
 연구팀은 이번 기술이 '물리적으로 일관된 생성 AI' 분야의 새로운 가능성을 제시했다고 설명했다. 물리적으로 일관된 생성 AI는 단순히 그럴듯한 결과를 만드는 수준을 넘어, 현실 세계의 물리 법칙과 인과관계까지 이해하는 AI를 의미한다.
 향후 이 기술은 콘텐츠 음향 제작 자동화는 물론, 증강현실(AR)·가상현실(VR) 콘텐츠, 메타버스, 로보틱스 시뮬레이션 등 다양한 분야에서 더욱 몰입감 있는 사용자 경험을 제공할 수 있을 것으로 기대된다.
 오태현 교수는 “기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해 왔다면, 이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 있다”며 “향후 텍스트·영상·음성 등 다양한 정보를 동시에 이해하고 처리하는 차세대 멀티모달 AI의 핵심 기반 기술로 확장될 수 있을 것”이라고 말했다.
 이번 연구에는 오현빈 포스텍 통합과정 학생이 제1저자로 참여했으며, 오태현 KAIST 교수와 소니 AI의 타키다 유타, 토시미츠 우에사카, 미츠후지 유키 연구원이 공동 저자로 참여했다. 이번 연구는 'CVPR 2026'에서 전체 논문 중 상위 1% 이내만 선정되는 오랄(Oral) 발표 논문으로 채택돼 연구 우수성을 인정받았다. 발표는 오는 6월 6일 진행될 예정이다.
 김영준 기자 kyj85@etnews.com
 </section> 
 </div> 
 Copyright © 전자신문. 무단전재 및 재배포 금지.

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

KAIST, '물리 특성' 고려해 더 실감나는 음향 제작 AI 구현...영화·게임 등 음향 제작 기여

멤버랭킹

관련자료

멤버랭킹