엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개

작성일 11-29

<div class="node-body">엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토(Foundational Generative Audio Transformer Opus 1, Fugatto)’를 개발했다고 밝혔다.<br>
 
<figure class="image"><img alt="" border="1" height="329" onerror="removeImage($(this));" src="https://www.itworld.co.kr/files/itworld/ITW_202411_02/nvidia.jpg" width="622">
<figcaption>ⓒ Nvidia</figcaption>
</figure>
<br>
엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑한다고 업체 측은 설명했다. 푸가토는 연구팀이 음성 모델링, 오디오 보코딩(VoCoding), 오디오 이해와 같은 분야에서 쌓아온 이전 작업을 기반으로 하는 파운데이션 생성형 트랜스포머 모델이다.<br>
<br>
푸가토는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.<br>
<br>
라파엘 발레(Rafael Valle)는 엔비디아의 응용 오디오 연구 관리자이자 푸가토를 공동 개발한 라파엘 발레는 “사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”라고 말했다. <br>
<br>
엔비디아는 다양한 오디오 생성과 변형 작업을 지원하는 푸가토가 여러 훈련된 능력의 상호 작용에서 나타나는 창발성(emergent property)을 보여준다며, 자유 형식의 지시를 결합할 수 있는 능력을 가지고 있다고 설명했다. <br>
<br>
라파엘 발레는 “푸가토는 데이터와 모델 규모에 따라 오디오 합성과 변형에서 비지도 멀티태스크 학습이 가능한 미래를 향한 첫걸음”이라고 덧붙였다. <br>
 
<h2>다양한 푸가토 사용례</h2>
음악 프로듀서는 푸가토를 사용해 노래에 대한 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있다. 이 과정에서 다양한 스타일, 목소리, 악기를 시도할 수 있다. 효과를 추가하고 기존 트랙의 전체 오디오 품질을 향상시킬 수도 있다. 광고 대행사는 푸가토를 적용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용하는 것이 가능하다. <br>
<br>
발레는 하나의 모델이 다양한 방식으로 언어를 사용할 수 있는 사례를 보여주는 “<a href="https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/" target="_blank">아보카도 의자</a>”를 언급하며 푸가토 역시 트럼펫에서 강아지 소리를 내게 하거나, 색소폰에서 고양이 소리를 내는 등 사용자가 묘사하는 것은 무엇이든 생성할 수 있다고 말했다. 노출된 훈련 데이터만 재현할 수 있는 다른 대부분 모델과 달리, 푸가토를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있다는 설명이다. <br>
  
<h2>정밀한 사운드 제어 기능</h2>
푸가토는 컴포저블아트(ComposableART)라는 기술을 사용해 개별적으로만 학습했던 명령어를 결합한다. 예를 들면 ‘슬픈 감정’과 ‘프랑스어 억양’이라는 2가지 명령어를 결합해 ‘슬픈 감정의 프랑스어 억양으로’ 말하는 사운드 생성을 요청할 수 있다. 모델의 명령어 간 보간 기능을 통해 사용자는 억양의 강약이나 슬픔의 정도 등과 같은 텍스트 명령어를 세밀하게 제어할 수 있다.<br>
<br>
푸가토의 이런 측면을 설계한 엔비디아의 AI 연구원 로한 바들라니는 “사용자가 주관적이거나 예술적인 방식으로 속성을 조합할 수 있도록 하고, 각 속성을 얼마나 강조할지 선택할 수 있게 하고 싶었다”라고 설명했다.<br>
<br>
또한 아울러 푸가토는 시간이 지남에 따라 변화하는 소리를 생성하는 ‘시간적 보간(temporal interpolation)’ 기능을 제공한다. 예를 들어, 천둥소리가 점점 크게 들리다가 점차 멀어지며 지역을 통과하는 폭풍우 소리를 만들 수 있다. 사용자는 사운드스케이프의 진행 방식을 세밀하게 제어할 수 있다.<br>
<br>
푸가토 정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어(Tensor Core) GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다. 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 다양한 사람 참여해 다중 억양과 다국어 기능이 더욱 강화됐다고 업체 측은 설명했다. <br>
editor@itworld.co.kr</div>

이전

“2025년, 양자내성암호 도입 및 디지털 신뢰 중요성 확대” 디지서트 전망

11-29
다음

트럼프의 반독점 및 환경 정책이 마이크로소프트에 미칠 영향

11-29

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개

멤버랭킹

관련자료

멤버랭킹