"장시간 음성 생성 가능" 억양·감정 표현하는 언어모델 개발 작성일 07-03 20 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">KAIST 연구팀, 국제머신러닝학회서 16일 구두 발표</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="ZkjW2tme0m"> <figure class="figure_frm origin_fig" contents-hash="dcaf111a7ec20a6492a3ac670b1750e6e16420af17fdc207338ff1ce5a818ea9" dmcf-pid="5EAYVFsd3r" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST, 장시간 음성 생성 가능한 음성언어모델 개발 왼쪽부터 노용만 교수, 박세진 박사과정생 [KAIST 제공. 재판매 및 DB 금지]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/03/yonhap/20250703095536134hxgd.jpg" data-org-width="993" dmcf-mid="Hq54EeuSzO" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/03/yonhap/20250703095536134hxgd.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST, 장시간 음성 생성 가능한 음성언어모델 개발 왼쪽부터 노용만 교수, 박세진 박사과정생 [KAIST 제공. 재판매 및 DB 금지] </figcaption> </figure> <p contents-hash="5b93d8497f0851ffbebecfdb4143ccd353f8c65f20ce435ec9b549e47b36350a" dmcf-pid="1DcGf3OJuw" dmcf-ptype="general">(대전=연합뉴스) 박주영 기자 = 한국과학기술원(KAIST)은 전기·전자공학부 노용만 교수 연구팀의 박세진 박사과정생이 장시간 음성 생성이 가능한 음성언어모델(SLM·Spoken Language Model) '스피치SSM'을 개발했다고 3일 밝혔다.</p> <p contents-hash="c15fb54b774e2d38d11483eeff03f14a8dde0b2aed168dbfc3d56420fe2dabea" dmcf-pid="tGyBg81m3D" dmcf-ptype="general">이번 연구는 권위 있는 국제머신러닝학회(ICML) 논문 중 1%만 받을 수 있는 구두 발표 대상으로 선정됐다. </p> <p contents-hash="4b2bacee32d64694596fd034921d25483b3955bcb664a90eacd092c20ebb800f" dmcf-pid="FHWba6tszE" dmcf-ptype="general">SLM은 대형언어모델(LLM)과 달리 텍스트가 아닌 음성을 학습함으로써 텍스트에 담을 수 없는 사람의 억양·감정 등 비언어적 정보까지 이해해 정보를 생성하는 기술이다. </p> <p contents-hash="c6c789a0993cf205ada30df84ccad0925aede8b8d4904cb42257e4b67fd70873" dmcf-pid="3XYKNPFOuk" dmcf-ptype="general">텍스트 기반 언어 모델의 한계를 넘어서는 차세대 기술로 주목받고 있지만, 장시간 일관된 음성을 생성하기 어려워 팟캐스트, 오디오북, 음성비서 등에는 적용하기 어려웠다. </p> <p contents-hash="cc7d82cb9bb3f6d843f9aef442afaab07917efe07932f57caf07bdc86b2886f3" dmcf-pid="0ZG9jQ3Ipc" dmcf-ptype="general">음성 정보를 담기 위해 '음성 토큰'(음성을 잘게 쪼갠 데이터) 형태로 만드는데, 음성 토큰이 많아질수록 고해상도를 유지하기 위한 메모리 소비가 급증하기 때문이다. </p> <p contents-hash="1184de7e77c4e3cb847792cd5b62de2782073902169153bf04dcaf14d7e965aa" dmcf-pid="p5H2Ax0CUA" dmcf-ptype="general">앞의 정보를 집중해 기억하는 메모리의 길이에 한계가 있어, 장시간 이용할 경우 주제의 일관성이 무너지는 문제가 있었다.</p> <p contents-hash="9bd5dd8fa01399f61c64e15603b02da2311eca181b10470e8b3c42ac765273fc" dmcf-pid="U1XVcMphpj" dmcf-ptype="general">연구팀은 최근 정보에 집중하는 '어텐션 층'(attention layer)에 전체 이야기의 흐름, 즉 장기적인 맥락을 오래 기억하기 위한 '순환 층'(recurrent layer)을 교차 배치한 하이브리드 구조를 통해 장시간 흐름을 잃지 않고 안정적으로 음성을 생성할 수 있는 기술을 개발했다. </p> <p contents-hash="049c6e446921430e114d31c2f5af4629edf10015ee985133aaddb370ebfdc11b" dmcf-pid="utZfkRUl0N" dmcf-ptype="general">또 음성 생성 단계에서는 단어를 병렬적으로 동시에 처리할 수 있는 '비-자기회귀적'(Non-Autoregressive) 방식의 오디오 합성 모델을 개발해 고품질의 음성을 빠르게 생성하는 데 성공했다. </p> <figure class="figure_frm origin_fig" contents-hash="8b99a37a74fca437132bf89335a8be454cf20ccd7bd1fed35de7bfa1fe1e5148" dmcf-pid="7F54EeuS0a" dmcf-ptype="figure"> <p class="link_figure"><img alt="장시간 생성에도 의미 일관성을 유지하는 '스피치SSM' [KAIST 제공. 재판매 및 DB 금지]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/03/yonhap/20250703095536369weka.jpg" data-org-width="440" dmcf-mid="XJkH40Iips" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/03/yonhap/20250703095536369weka.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 장시간 생성에도 의미 일관성을 유지하는 '스피치SSM' [KAIST 제공. 재판매 및 DB 금지] </figcaption> </figure> <p contents-hash="bef319c73dbc8aa74732c2ccb4d7fa24ff892f4d7d9bff444b193bb0cf194890" dmcf-pid="z318Dd7vzg" dmcf-ptype="general">기존 음성언어모델은 앞의 단어가 뒤의 단어를 만들어내는 연속적인 '자기회귀적'(Autoregressive) 방식을 채택해 생성에 시간이 오래 걸렸다.</p> <p contents-hash="a2e854e4c3eb449326cce17db05833f6a3fe070d90da70c63742562494e25127" dmcf-pid="q0t6wJzT3o" dmcf-ptype="general">연구팀은 16분 길이의 음성언어모델을 평가할 수 있는 자체 평가툴도 개발했다. </p> <p contents-hash="ff7322d9022f6a5b834d910545b309602615156470e67d5dfdaff3dc0e571de4" dmcf-pid="BpFPriqypL" dmcf-ptype="general">기존에는 10초 정도의 짧은 음성을 대상으로 문법 오류 정도만 파악할 수 있었지만, 연구팀이 개발한 도구를 통해 장시간 생성된 음성 콘텐츠가 시간이 지나도 내용이 잘 이어지는지, 자연스럽게 들리는지 등을 정밀하게 분석할 수 있다. </p> <p contents-hash="2245d0d7bb5a04ce28dbe42b2560955459cdb04640a44a72c62047c9317be4a7" dmcf-pid="bhO3RByj3n" dmcf-ptype="general">평가 결과 초기에 언급된 특정 인물이 지속해 등장하며, 새로운 인물과 사건들이 맥락상 일관되게 이어져 자연스럽게 전개되는 모습을 확인했다.</p> <p contents-hash="2d7901d87559a1ae668fa06b03df716b4dfe10f80546a5438a174dbd94c9e922" dmcf-pid="KlI0ebWAFi" dmcf-ptype="general">박세진 박사과정생은 "긴 문맥에서도 일관된 내용을 유지하면서 기존 방식보다 더 빠르게, 효율적으로 실시간 응답할 수 있어 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 기여할 것"이라고 기대했다. </p> <p contents-hash="c3eb31fb02731a8c3d975839abac11b3bbed39e883db325b0b053381e2cf470e" dmcf-pid="9SCpdKYc3J" dmcf-ptype="general">박세진 박사과정생은 오는 16일 열리는 ICML에서 함께 협력한 구글 딥마인드 연구팀과 함께 연구 성과를 발표할 예정이다. </p> <p contents-hash="497d0835fd5e854f5dc54d5b001a4103c4570dee8a7de8a4998b4f8f3787525c" dmcf-pid="2vhUJ9Gk0d" dmcf-ptype="general">jyoung@yna.co.kr</p> <p contents-hash="d8adbd697d87a03d92eb8f61493e42e0cab6fd1b1e1ce3c82b8ca5b767489085" dmcf-pid="fyS7nVXDUR" dmcf-ptype="general">▶제보는 카톡 okjebo</p> </section> </div> <p class="" data-translation="true">Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지</p> 관련자료 이전 넥슨 자회사 네오플, 노사 갈등에 “성과급·근로 여건 개선 노력 계속” 07-03 다음 ‘톱5’ 중 유일한 윔블던 생존자 사발렌카, 3회전 상대는 라두카누 07-03 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.