KAIST, '물리 특성' 고려해 더 실감나는 음향 제작 AI 구현...영화·게임 등 음향 제작 기여 작성일 05-26 40 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="PKmLJgQ9mB"> <p contents-hash="ca4b88bcbbddaaa1de7da6738beb61dbc5cabe59762af356a2563c6109015315" dmcf-pid="Q9soiax2rq" dmcf-ptype="general">우리는 소리를 떠올릴 때, 소리를 내는 사물 형태뿐 아니라 크기·무게, 움직임 속도 같은 물리 특성까지 함께 고려한다. 다만 기존 영상-음향 생성 인공지능(AI)은 화면 속 사물 형태나 장면 정보에 주로 의존한다.</p> <p contents-hash="8dccfee3e6013cf5d41af9988552fafeac0ad919fa86a8a39b3ea2d3437c9deb" dmcf-pid="xyxqubtWwz" dmcf-ptype="general">이런 가운데 한국과학기술원(KAIST·총장 이광형)이 영상 속 물리 상황을 이해해 보다 현실감 있는 소리를 생성하는 AI '파바스(PAVAS)'를 개발했다<br></p> <figure class="figure_frm origin_fig" contents-hash="99f88cbbe31a62a83eaff22d9a598732254b8bc288d28af37b06e88ee3059ea9" dmcf-pid="yxyDcroMr7" dmcf-ptype="figure"> <p class="link_figure"><img alt="PAVAS 기술 개념도" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/26/etimesi/20260526180159551qobe.jpg" data-org-width="700" dmcf-mid="8gOgnNMVDK" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/26/etimesi/20260526180159551qobe.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> PAVAS 기술 개념도 </figcaption> </figure> <p contents-hash="447f96a9e7b500e6986212852a7f8e03f81eccebcd67bafea7b90943d753b4e6" dmcf-pid="WMWwkmgRmu" dmcf-ptype="general">KAIST는 오태현 전산학부 교수팀이 포스텍, 소니 AI 공동 연구진과 함께 이같은 성과를 거뒀다고 26일 밝혔다.</p> <p contents-hash="e610a989c05e668e9ce5690d66125dd1949971df1957448d70be29b5ecfe92a0" dmcf-pid="YRYrEsaemU" dmcf-ptype="general">기술 핵심은 영상 속 물체의 질량과 속도 등 눈에 보이지 않는 물리 정보를 AI가 스스로 추론하도록 설계됐다는 점이다. AI가 주변 환경과 움직임 맥락을 분석해 이를 추정하고, 그 결과를 소리 생성 과정에 반영하도록 했다. '왜 이런 소리가 발생하는지'에 대한 물리적 원인까지 AI가 이해하도록 만든 것이다.</p> <p contents-hash="f5bb39c57558e7442dc4ae9086a43f20c4c5c815eb7f0654df14d021d2fa2a8e" dmcf-pid="GeGmDONdmp" dmcf-ptype="general">기술 검증 결과, 연구팀 AI는 물체 간 충돌·타격 등 물리적 상호작용이 발생하는 장면에서 실제 환경과 매우 유사한 소리를 생성했다. 특히 물체 질량·속도가 달라질 때 소리 크기와 음색도 자연스럽게 변화하는 등 보다 현실감 있는 음향을 구현했다.</p> <p contents-hash="42d2338a9f327269025ce84d90ca7c8cf581a83a1217765cb7980a210822cda4" dmcf-pid="HdHswIjJD0" dmcf-ptype="general">기존 상용 AI 모델들이 영상·오디오를 함께 생성하는 데 집중했다면, 파바스는 영상 속 객체의 움직임과 충돌 특성을 분석해 장면과 정밀하게 맞아떨어지는 현실적인 효과음을 생성한다는 점에서 차별성을 가진다.<br></p> <figure class="figure_frm origin_fig" contents-hash="31fc6ef1f5306e64338229a3239e82dc27f278d4950402d3ec08322e771d6b70" dmcf-pid="XJXOrCAim3" dmcf-ptype="figure"> <p class="link_figure"><img alt="기존 영상→음향 생성 모델과 PAVAS가 생성한 음향의 스펙트로그램 비교" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/26/etimesi/20260526180200821sljw.jpg" data-org-width="700" dmcf-mid="6Rf0tUGhsb" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/26/etimesi/20260526180200821sljw.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 기존 영상→음향 생성 모델과 PAVAS가 생성한 음향의 스펙트로그램 비교 </figcaption> </figure> <p contents-hash="4a36c024ec061591434e31226b81aecc1e77302116a8ea8640e5b92f4c6ceeca" dmcf-pid="ZiZImhcnDF" dmcf-ptype="general">연구팀은 이번 기술이 '물리적으로 일관된 생성 AI' 분야의 새로운 가능성을 제시했다고 설명했다. 물리적으로 일관된 생성 AI는 단순히 그럴듯한 결과를 만드는 수준을 넘어, 현실 세계의 물리 법칙과 인과관계까지 이해하는 AI를 의미한다.</p> <p contents-hash="c0968dde353c2adb49db2001ccb3905961ce776e9b745f42e1fc8a1ef736508c" dmcf-pid="5n5CslkLrt" dmcf-ptype="general">향후 이 기술은 콘텐츠 음향 제작 자동화는 물론, 증강현실(AR)·가상현실(VR) 콘텐츠, 메타버스, 로보틱스 시뮬레이션 등 다양한 분야에서 더욱 몰입감 있는 사용자 경험을 제공할 수 있을 것으로 기대된다.</p> <p contents-hash="7197bff8a5a32d0207d553f8d2f14ca7f9331067aa09a6a9ab3f70c5b91e1c42" dmcf-pid="1L1hOSEoE1" dmcf-ptype="general">오태현 교수는 “기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해 왔다면, 이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 있다”며 “향후 텍스트·영상·음성 등 다양한 정보를 동시에 이해하고 처리하는 차세대 멀티모달 AI의 핵심 기반 기술로 확장될 수 있을 것”이라고 말했다.</p> <p contents-hash="6356c429f8d374e5d19ec721e49419df086505ea64b79ef2a1280a66356bfb59" dmcf-pid="totlIvDgm5" dmcf-ptype="general">이번 연구에는 오현빈 포스텍 통합과정 학생이 제1저자로 참여했으며, 오태현 KAIST 교수와 소니 AI의 타키다 유타, 토시미츠 우에사카, 미츠후지 유키 연구원이 공동 저자로 참여했다. 이번 연구는 'CVPR 2026'에서 전체 논문 중 상위 1% 이내만 선정되는 오랄(Oral) 발표 논문으로 채택돼 연구 우수성을 인정받았다. 발표는 오는 6월 6일 진행될 예정이다.</p> <p contents-hash="ce3ca4163f3c33b2ac48e80529fe111f0f14592fac9f4a1931d7ec8e4ff5e758" dmcf-pid="FgFSCTwaIZ" dmcf-ptype="general">김영준 기자 kyj85@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 비비, '미노이 저격설' 직접 해명..."작업한지 2년 된 곡. '디스' 될 수 없다" [엑's 이슈] 05-26 다음 [뉴스줌인] 외산 GPU와 국산 NPU, '투트랙'으로 가는 AI 인프라 지원 정책 05-26 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.