망고부스트, AMD 기반 멀티노드 AI 학습 첫 성공…'라마2 70B' 11분 만에 완료 작성일 06-05 89 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">'MI300X' 기반 4노드 구성서 95~100% 성능 확장…풀스택 최적화로 벤더 종속성 해소</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="UkiONSGkLX"> <p contents-hash="cac3cc5c9d5bf5ef592ed5e16ed44c9f31dbcdc831bf4523506312f274509a67" dmcf-pid="uEnIjvHEdH" dmcf-ptype="general">(지디넷코리아=조이환 기자)망고부스트가 AMD의 고성능 GPU 32개를 활용해 초대형 AI 모델을 약 11분 만에 학습하는 데 성공했다. 복잡한 하드웨어와 소프트웨어를 하나로 최적화해, 특정 장비에 의존하지 않고도 빠르고 효율적인 AI 학습이 가능하다는 점을 입증했다.</p> <p contents-hash="6377e2969144def37b7c76416ae88d4abf850520f9ab50ea3ac6dcfe22cffe69" dmcf-pid="7DLCATXDeG" dmcf-ptype="general">망고부스트는 메타 '라마2 70B 로라' 모델을 10.91분 만에 학습하는 데 성공했다고 5일 밝혔다. </p> <p contents-hash="1083d506db28fe105e85357883a1044dc8d2ce3cdcd7870e8d5da4bdcb1df35a" dmcf-pid="zwohcyZwnY" dmcf-ptype="general"><span>이번 결과는 ML퍼프 기준으로 최초의 AMD 그래픽처리장치(GPU) 기반 멀티노드 학습 성과다. GPU 간 통신 병목을 제거하면서도 성능 저하 없이 학습 시간을 대폭 단축한 사례다.</span></p> <figure class="figure_frm origin_fig" contents-hash="a773ac4dc1a5caa43d86d0b84cab62e7c3564701fa04628e83f3e839dd80cd4d" dmcf-pid="qrglkW5reW" dmcf-ptype="figure"> <p class="link_figure"><img alt="망고부스트가 AMD 기반 멀티노드 인공지능(AI) 학습 성능을 입증하며 고성능 인프라 시장에서 기술 경쟁력을 공식화했다. (사진=망고부스트)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202506/05/ZDNetKorea/20250605164031715didz.png" data-org-width="265" dmcf-mid="40cKF4MURh" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202506/05/ZDNetKorea/20250605164031715didz.png" width="658"></p> <figcaption class="txt_caption default_figure"> 망고부스트가 AMD 기반 멀티노드 인공지능(AI) 학습 성능을 입증하며 고성능 인프라 시장에서 기술 경쟁력을 공식화했다. (사진=망고부스트) </figcaption> </figure> <p contents-hash="72a9869402f90d41d0014efdee7cc22b370f36e3f3ef8d4e94b55f941acf6eff" dmcf-pid="BmaSEY1mdy" dmcf-ptype="general">측정은 국제 AI 벤치마크인 'ML퍼프 트레이닝 5.0(MLPerf Training v5.0)'에서 AMD '인스팅트 MI300X' 그래픽처리장치 32개를 활용했다.</p> <p contents-hash="cad062d9a8e344f1d8a64bb038cc54e098d15b42170d5eb13eb25fa51defa25b" dmcf-pid="bsNvDGtsRT" dmcf-ptype="general">특히 이번 학습에는 일부 파라미터만 미세조정하는 로라 방식이 적용돼 거대 모델에 대해 짧은 시간 안에 고효율 파인튜닝이 가능함을 입증했다.</p> <p contents-hash="d507263b61c359d24b5ea9e785645b0e9582fe55642598f4b28f7d68a53628d7" dmcf-pid="KOjTwHFOdv" dmcf-ptype="general">망고부스트는 온프레미스와 클라우드 환경을 모두 지원하는 유연한 구조를 갖춰 특정 벤더나 하드웨어 환경에 얽매이지 않고 확장 가능한 학습 인프라를 구현하고 있다.</p> <p contents-hash="28106c774aaa526b5ee65459b5c347d6a67e97e0d181464230323cd834ea2aa1" dmcf-pid="9CcWmZ0CLS" dmcf-ptype="general">망고부스트는 자체 개발한 '망고 LLM부스트' 소프트웨어와 '망고 GPU부스트 RDMA' 통신 솔루션을 통해 모델 병렬화와 자동 튜닝, 배치 최적화, 메모리 조정 등을 통합 제공하는 시스템을 구현했다. </p> <p contents-hash="423f2e249ba79b642a6b2581ff315c84bfa726f07cd6f763a933d51710e05efe" dmcf-pid="2hkYs5phdl" dmcf-ptype="general">'LLM부스트'는 다양한 대규모 언어모델을 안정적으로 운영할 수 있도록 설계됐다. 'GPU부스트 RDMA'는 수천 개 큐피 환경에서도 성능 저하 없이 통신을 유지할 수 있도록 설계돼 있다.</p> <p contents-hash="13053cb1ce38bafe9ae70a6378afb2781f4b564281504d82dd2855b555e382a6" dmcf-pid="VlEGO1UlMh" dmcf-ptype="general">ML퍼프 제출 기준으로는 노드 1개에서 2개, 4개로 구성된 멀티노드 환경 모두에서 95~100% 수준의 선형적 성능 확장성을 달성했다. 통신 병목을 해소한 원격 직접 메모리 접근(RDMA) 기반 구조와 GPU 최적화 소프트웨어가 병렬 학습 효율을 실질적으로 끌어올린 것으로 해석된다.</p> <p contents-hash="e63954c0a1b8c1444f7c60f8301fb9e33efa86ee3541c67805dd51488696d6c8" dmcf-pid="fSDHItuSdC" dmcf-ptype="general">이번 학습 결과는 AMD 라데온 오픈 컴퓨트(ROCm) 소프트웨어 스택과의 통합을 기반으로 한다. 망고부스트는 이 환경에 맞춰 'LLM부스트'의 연산, 메모리, 네트워크 제어 구조를 최적화했고 'MI300X'의 메모리 대역폭과 성능을 극대화하는 데 초점을 맞췄다.</p> <figure class="figure_frm origin_fig" contents-hash="37e2aad3293f2899dba4f3d7ccbdfebf1aad32786dcedca164616c022e16352d" dmcf-pid="4vwXCF7vdI" dmcf-ptype="figure"> <p class="link_figure"><img alt="AMD 'MI300X' GPU와 RDMA 기반 네트워킹 인프라에 탑재된 LLM부스트 소프트웨어 스택 (사진=망고부스트)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202506/05/ZDNetKorea/20250605164033041mvpv.png" data-org-width="623" dmcf-mid="8betvUbYiC" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202506/05/ZDNetKorea/20250605164033041mvpv.png" width="658"></p> <figcaption class="txt_caption default_figure"> AMD 'MI300X' GPU와 RDMA 기반 네트워킹 인프라에 탑재된 LLM부스트 소프트웨어 스택 (사진=망고부스트) </figcaption> </figure> <p contents-hash="8c57abc358a1eef03f63932f6b1393e26d6a82c46dac5ecbcd2b60549c1a70e6" dmcf-pid="8TrZh3zTdO" dmcf-ptype="general">망고부스트는 이번 벤치마크 외에도 '라마2 7B', '라마3.1 8B' 모델에 대한 내부 학습 벤치마크를 통해 유사한 성능을 확보해온 것으로 알려졌다. 이 성능은 실제 온프레미스나 클라우드 환경 모두에서 재현 가능하며 일반화된 학습 효율을 보장한다는 점에서 상용화 가능성도 입증된 상태다.</p> <p contents-hash="76547d5e21591bfe15a03852837286715a0a0946e10e5a599a631e8c70f62240" dmcf-pid="6ym5l0qyRs" dmcf-ptype="general">ML퍼프와 ML커먼스의 창립자인 데이비드 캔터는 "망고부스트의 첫 ML퍼프 트레이닝 결과는 매우 인상적"이라며 "'MI300X' 단일 노드부터 4노드까지의 확장된 학습 성능은 현대 AI 가속기의 성능을 온전히 활용하려면 소프트웨어 스택의 최적화가 얼마나 중요한지를 다시 입증한 사례"라고 밝혔다.</p> <p contents-hash="1eb75b2747df3b2fa7a301a9a6f022110c21da0159a41308122eb7371ffc9dfc" dmcf-pid="PWs1SpBWim" dmcf-ptype="general">김장우 망고부스트 대표는 "이번 ML퍼프 벤치마크에서 우리는 소프트웨어와 하드웨어의 통합 최적화를 통해 벤더 종속 없이도 대규모 LLM 학습을 효율적으로 수행할 수 있는 해답을 제시했다"며 "이번 결과는 우리 기술이 실제 데이터센터 운영 환경에서 충분히 확장 가능하다는 점을 보여주는 이정표"라고 밝혔다.</p> <p contents-hash="bb1c15ef03ef48cd195a7b56a8dd1d5c900329919cdbc6dee8168d4f2c9f7f36" dmcf-pid="QYOtvUbYLr" dmcf-ptype="general">조이환 기자(ianyhcho@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p> 관련자료 이전 '데뷔' 비보이즈, 청량 입은 악동 꾸러기의 등장 06-05 다음 “게임은 문화산업”… 李 정부 출범에 규제 완화 기대감 커진 게임업계 06-05 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.