KAIST, 영상 속 소리 자동 구현 AI 기술 ‘파바스’ 개발 작성일 05-26 42 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">KAIST-POSTECH-SONY AI 공동연구진<br>영상 속 물체의 질량·속도 추론<br>시각 패턴 중심 기존 AI 한계 극복<br>물리적으로 일관된 생성 AI 가능성 제시</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="HgRSVR9U5x"> <figure class="figure_frm origin_fig" contents-hash="e74da06e70aedb6899bac1613b00847f878e254a0dfdb986dd2eee5b1506ae38" dmcf-pid="Xaevfe2uYQ" dmcf-ptype="figure"> <p class="link_figure"><img alt="PAVAS_Physics-Aware Video-to-Audio Synthesis 기술 개념도.ⓒKAIST" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/26/dailian/20260526100341487fyij.jpg" data-org-width="700" dmcf-mid="GUl9DlkLZM" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/26/dailian/20260526100341487fyij.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> PAVAS_Physics-Aware Video-to-Audio Synthesis 기술 개념도.ⓒKAIST </figcaption> </figure> <p contents-hash="0dae7411e827a0a9c746400b907d853485c7415632b31ea0c7ab4a07a5ccb29f" dmcf-pid="ZNdT4dV75P" dmcf-ptype="general">시각 패턴 중심의 기존 인공지능(AI) 한계를 극복해 영상 속 물체의 질량과 속도를 추론, 맞춤형 효과음을 생성하는 기술이 나왔다.</p> <p contents-hash="ea11408345975e3e5548b281d04c82edf16be90902a7790604be58e9272f5630" dmcf-pid="5jJy8Jfzt6" dmcf-ptype="general">KAIST는 전산학부 오태현 교수 연구팀이 POSTECH, 소니 AI 공동 연구진과 함께 영상 속 물리적 상황을 이해해, 보다 현실감 있는 소리를 생성하는 인공지능(AI) 기술 ‘파바스’(PAVAS)를 개발했다고 26일 밝혔다.</p> <p contents-hash="a930488bf73fa5503af3b145f0af9f828514f67d898023fa60b9eb308d92750e" dmcf-pid="1AiW6i4q18" dmcf-ptype="general">KAIST에 따르면 이번 기술은 영상 속 물체의 질량과 속도 등 눈에 보이지 않는 물리 정보를 AI가 스스로 추론하도록 설계됐다.</p> <p contents-hash="2133305aa5874915d19950ded417cf9b41fc79534d451f1a2636d5614009e242" dmcf-pid="tcnYPn8BG4" dmcf-ptype="general">일반적인 영상에는 물체의 정확한 무게나 속도가 숫자로 제시되지 않지만 연구팀은 AI가 주변 환경과 움직임의 맥락을 분석해 이를 추정하고, 그 결과를 소리 생성 과정에 반영하도록 했다.</p> <p contents-hash="f8566ae9740fb346c438d27973121143eef6df7aeab20239a172164f4b534488" dmcf-pid="FkLGQL6bGf" dmcf-ptype="general">즉, 단순히 무엇이 보이는지를 인식하는 수준을 넘어, 왜 이런 소리가 발생해야 하는지에 대한 물리적 원인까지 AI가 이해하도록 만든 것이다.</p> <p contents-hash="d88f40540b13b2ece9ba985b4c6616ee52908a01f9f87c8ea1ca509d4ebe9dbd" dmcf-pid="3EoHxoPKZV" dmcf-ptype="general">기술 검증 결과, 연구팀의 AI는 물체 간 충돌이나 타격 등 물리적 상호작용이 발생하는 장면에서 실제 환경과 매우 유사한 소리를 생성했다. 특히 물체의 질량과 속도가 달라질 때 소리의 크기와 음색도 자연스럽게 변화하는 등 보다 현실감 있는 음향을 구현했다.</p> <p contents-hash="1784c335cf858709812a68b02e3f2fec6eb1eeed9738eeb6cfe446d50c6f35fb" dmcf-pid="0DgXMgQ9H2" dmcf-ptype="general">최근에는 영상과 오디오를 동시에 생성하는 생성형 AI 기술이 빠르게 발전하고 있다. 대표적으로 구글의 ‘비오(Veo) 3’, 바이트댄스의 ‘시댄스(Seedance) 2.0’ 등이 있다.</p> <p contents-hash="20be397c3a57ba4621e67b2d1330a68b7a5c7fd233e9feaa63e4e3bb7ca1ad55" dmcf-pid="pwaZRax259" dmcf-ptype="general">그러나 실제 영화·광고·게임 제작 현장에서는 새로운 영상을 생성하는 것보다 기존 영상에 장면에 맞는 효과음을 추가하거나 음향을 보완하는 후반 작업 수요가 훨씬 크다.</p> <p contents-hash="05c019e8846843f4b56c35f8150c0ccfc1bef28b5e4926620dba74ad35e3ca69" dmcf-pid="UrN5eNMVHK" dmcf-ptype="general">기존 상용 AI 모델들이 영상과 오디오를 함께 생성하는 데 집중했다면 파바스는 영상 속 객체의 움직임과 충돌 특성을 분석해 장면과 정밀하게 맞아떨어지는 현실적인 효과음을 생성한다는 점에서 차별성을 가진다.</p> <p contents-hash="b9a99b0eaaf17afeb62d739588d5e88e8826b71fb74e258161418a2e8802be24" dmcf-pid="umj1djRfYb" dmcf-ptype="general">연구팀은 기술이 물리적으로 일관된 생성 AI 분야의 새로운 가능성을 제시했다고 설명했다.</p> <p contents-hash="5bca5ddd9d0edc8221d3d21725cfe3c33a0e722e13adfa87b3ea5cb3602c4887" dmcf-pid="70HQhHIktB" dmcf-ptype="general">물리적으로 일관된 생성 AI는 단순히 그럴듯한 결과를 만드는 수준을 넘어, 현실 세계의 물리 법칙과 인과관계까지 이해하는 AI를 의미한다.</p> <p contents-hash="bad80b43ad2f399c6e98514238cf54ceb46c9045631f44042ea1a36f164d64c4" dmcf-pid="qUZMSZhDGz" dmcf-ptype="general">향후 기술은 콘텐츠 음향 제작 자동화는 물론, 증강현실(AR)·가상현실(VR) 콘텐츠, 메타버스, 로보틱스 시뮬레이션 등 다양한 분야에서 더욱 몰입감 있는 사용자 경험을 제공할 수 있을 것으로 기대된다.</p> <p contents-hash="12ccb22d9555c86624508fd3f899770d4669c17d22ff5d1e094c74dfe07e3dd4" dmcf-pid="Bu5Rv5lwt7" dmcf-ptype="general">오태현 교수는 “기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해 왔다면 이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 있다”며 “향후 텍스트·영상·음성 등 다양한 정보를 동시에 이해하고 처리하는 차세대 멀티모달 AI의 핵심 기반 기술로 확장될 수 있을 것”이라고 말했다.</p> <p contents-hash="644548076acf5b310453e9281713c39a8c42daf0a71764127684615aba6d671b" dmcf-pid="b71eT1SrXu" dmcf-ptype="general">연구 결과는 컴퓨터 비전(영상 기반 인공지능 기술) 분야 세계 최고 권위 학술대회인 CVPR 2026에서 전체 논문 중 상위 1% 이내만 선정되는 오랄(Oral) 발표 논문으로 채택됐다. 발표는 내달 6일 진행될 예정이다.</p> <p contents-hash="2fb94fad1c7e04db1cd9984ddb92041ef4ad05d1a7e19eba26c6ae2c8c3bf95b" dmcf-pid="KztdytvmXU" dmcf-ptype="general">한편, 연구는 과학기술정보통신부 기초연구사업 중견연구, 미래창조과학부 미래유망융합기술 파이오니어사업, 과학기술정보통신부 AGI 사업, KAIST 이노코어(InnoCORE) 사업의 지원을 받아 수행됐다.</p> </section> </div> <p class="" data-translation="true">Copyright © 데일리안. 무단전재 및 재배포 금지.</p> 관련자료 이전 이중 과금 등 논란에 '빠른 사과·소통=신뢰 회복' 공식된 게임업계 05-26 다음 원프레딕트, 제조업 AI 컨트롤타워 구축…MFM 고도화 추진 05-26 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.