KAIST, 24시간 AI비서 가능성 열 '스피치SSM' 개발 작성일 07-03 12 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="KGrMcMph1P"> <p contents-hash="05894ee4c0932aa3225e1f3757418d03a7e5b8dbd848246e7decaea0d97d71b0" dmcf-pid="9HmRkRUl56" dmcf-ptype="general">음성 언어 모델(SLM)이 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서는 한계가 두드러지는 가운데, 우리 연구진이 시간 제약 없이 자연스러운 음성 생성을 실현한 '스피치SSM'을 개발했다.</p> <p contents-hash="d3b2d867bc91aabdf9d0de850d3dc9a2e4a889e3f7029d70f35e30b6aadc328a" dmcf-pid="2XseEeuS58" dmcf-ptype="general">한국과학기술원(KAIST·총장 이광형)은 노용만 전기 및 전자공학부 교수팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다고 3일 밝혔다.</p> <p contents-hash="5ffbd9ff0ce6c535212149ae693bfbb8ec47a98694a81c41f0fd4fb2fe25d190" dmcf-pid="VZOdDd7vH4" dmcf-ptype="general">이번 연구는 국제 최고 권위 머신러닝 학회인 ICML 2025에 제출된 전체 논문 중 약 1%만 선정되는 구두 논문 발표에 확정, 연구 역량을 입증했다.</p> <p contents-hash="08b1fd32f7e337e2d8b3cfd7d708090c1b11aa8c95b14baf0aa7e4e8f6d35d03" dmcf-pid="f5IJwJzTGf" dmcf-ptype="general">SLM은 음성을 텍스트로 변환하지 않고 직접 처리함으로써, 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질 음성을 빠르게 생성할 수 있다. 그러나 기존 모델은 음성을 잘게 쪼개 아주 자세한 정보까지 담는 경우, '음성 토큰 해상도'가 높아지고 사용 메모리 소비도 증가해 장시간 음성의 의미·화자적 일관성을 유지하기 어려웠다.<br></p> <figure class="figure_frm origin_fig" contents-hash="6cd3bb12cfa06e3270f83bb571bfe7abfa1f3d9c4910b5b7e2e1c73f7200b957" dmcf-pid="4qHkTk6FtV" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST가 개발한 '스피치SSM' 개요" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/03/etimesi/20250703105106961aitu.png" data-org-width="700" dmcf-mid="bZUhthnb1Q" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/03/etimesi/20250703105106961aitu.png" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST가 개발한 '스피치SSM' 개요 </figcaption> </figure> <p contents-hash="74a69df426445daaf6f1e63a17b5187c80d8fcd05c702c2194f53b3b529de151" dmcf-pid="8BXEyEP3X2" dmcf-ptype="general">연구팀은 문제를 해결하기 위해 하이브리드 상태공간 모델을 사용한 스피치SSM을 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 했다.</p> <p contents-hash="d37ea02ab20d431a1cc8c641c596b2a887a547d468cb79b1d9694430310b3463" dmcf-pid="6bZDWDQ059" dmcf-ptype="general">이 모델은 최근 정보에 집중하는 '어텐션 레이어'와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 '순환 레이어'를 교차 배치한 '하이브리드 구조'를 통해 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다.</p> <p contents-hash="7e1ca4c9e4047d57f0409677d244ce8e206737b3c19cc517a8480356d7b33001" dmcf-pid="PK5wYwxpGK" dmcf-ptype="general">또 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아, 장시간 음성을 안정적이고 효율적으로 학습·생성할 수 있다.</p> <p contents-hash="2efb7bc47f34d49f5a8dab0974a33edb8a33b06f852948a04fad9b0089461d1d" dmcf-pid="Q91rGrMUtb" dmcf-ptype="general">스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스를 효과적으로 처리할 수 있게 했다.</p> <p contents-hash="5b3bac52c0eb67eb8ed63e00fd89d1ba492ba1e00cc3eccd0b7c97ba301683cc" dmcf-pid="x2tmHmRu1B" dmcf-ptype="general">또 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 '비자기회귀' 방식 오디오 합성 모델을 사용해, 고품질 음성을 빠르게 생성할 수 있게 했다.</p> <p contents-hash="b6813f2a83fbf4154259bbf51ee151f3edc0f06efbdb4d9ff6f6a55164404269" dmcf-pid="yOoKdKYcYq" dmcf-ptype="general">기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 'LibriSpeech-Long'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다.</p> <p contents-hash="01fd9ab7f3dce512dee1ebe2d83e0a180a1e4ae422475cf6c3febb131f4d19d6" dmcf-pid="WMqTpTaVtz" dmcf-ptype="general">박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며 “이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”고 밝혔다.</p> <p contents-hash="5b5cabaa1d4d3c3de596a98ea704bbe303156150a20d4f538f537d8a6493e3a9" dmcf-pid="YRByUyNfG7" dmcf-ptype="general">한편 박세진 박사과정생은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR 2024 하이라이트 논문 발표, 2024년 ACL에서 우수논문상 수상 등을 통해 우수한 연구 역량을 입증한 바 있다.</p> <p contents-hash="949f685cba33a2eb5e64a66415a90ef19858c4d8841115de99ad4f609ee79f61" dmcf-pid="GebWuWj41u" dmcf-ptype="general">김영준 기자 kyj85@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 ‘막장의 대가’ 김순옥, 이름 감추고 청춘 드라마 ‘사계의 봄’ 대본 써 07-03 다음 “지스타캐드, '매우 만족' 평가…기능·가격·서비스 모두 만족” 07-03 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.