"엔비디아 B300과 대등" AMD MI355X, AI 추론 벤치마크서 압도적 성능 과시 작성일 04-02 29 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">MLPerf 6.0서 '인스팅트 MI355X'로 초당 100만 토큰 돌파</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="XeHh3fGhT6"> <figure class="figure_frm origin_fig" contents-hash="25204c250928fac1e55d31cc0632c69af32b3a59f5c4fced379ee077c82eaf56" dmcf-pid="ZdXl04Hlv8" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/02/552796-pzfp7fF/20260402161542596mmcv.png" data-org-width="640" dmcf-mid="H2lDGzhDSP" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/02/552796-pzfp7fF/20260402161542596mmcv.png" width="658"></p> </figure> <p contents-hash="9e9d6ada4bda8920f9e11b0e910f2ef24495b829783a25d8ef35fb0115962067" dmcf-pid="5JZSp8XST4" dmcf-ptype="general">[디지털데일리 김문기기자] AMD가 최신 AI 추론 벤치마크인 'MLPerf 6.0'에서 차세대 GPU '인스팅트(Instinct) MI355X'를 통해 초당 100만 토큰 처리 장벽을 돌파하며 기술력을 입증했다고 1일(현지시간) 밝혔다.</p> <p contents-hash="7ccafa65ca747d70ce8ccffbc68f77a7d08ebaec9028476854b85a1a33c43dae" dmcf-pid="1i5vU6ZvTf" dmcf-ptype="general">AMD는 이번 벤치마크에서 3nm 공정 및 CDNA 4 아키텍처 기반의 '인스팅트 MI355X' GPU를 투입했다. 이 제품은 288GB의 HBM3E 메모리와 FP4/FP6 데이터 타입을 지원하며, 단일 GPU에서 최대 5200억 개의 파라미터 모델을 수용할 수 있도록 설계됐다.</p> <p contents-hash="365429d9efb33f01c545699fadcb48f2f6ffe98a6f57aeadce7f615392f6e7b4" dmcf-pid="tn1TuP5TSV" dmcf-ptype="general">가장 주목받은 성과는 대규모 클러스터에서의 처리 속도다. 11개 노드(MI355X GPU 87개)를 연결한 환경에서 '라마 2 70B' 모델 기준 초당 104만 2110토큰(오프라인 기준)을 기록, 사상 처음으로 100만 토큰 고지를 넘어섰다. 특히 다중 노드 확장 효율성에서 93~98%라는 선형에 가까운 성능 향상을 보여주며 대규모 AI 팩토리 구축 역량을 증명했다.</p> <p contents-hash="28fc038cd1c096d0c34a4ba2eec75d3e67d2452a3b514c515056caecf9bbd6ae" dmcf-pid="FLty7Q1yl2" dmcf-ptype="general">단일 노드 성능에서도 엔비디아의 최신 '블랙웰(Blackwell)' 시리즈와 대등한 결과를 냈다. 라마 2 70B 벤치마크에서 MI355X 플랫폼은 엔비디아 B200 대비 인터랙티브(Interactive) 모드에서 119%의 성능을 기록했으며, B300과 비교해도 서버 및 오프라인 테스트에서 92~93% 수준의 높은 경쟁력을 유지했다.</p> <p contents-hash="db65644726d705c9a1a4c8c3a28b89e532e77c3014066d7c85faf7410d2f4fcd" dmcf-pid="3oFWzxtWT9" dmcf-ptype="general">신규 워크로드 대응력도 강화됐다. 처음 도입된 'GPT-OSS-120B' 모델에서 엔비디아 B200 대비 최대 115% 높은 성능을 기록했다. 텍스트-투-비디오 모델인 'Wan-2.2-t2v'에서도 B300의 87~100% 수준 성능을 일주일 만에 구현해냈다. 이는 AMD의 소프트웨어 스택인 'ROCm'이 최신 생성형 AI 모델에 기민하게 대응하고 있음을 시사한다.</p> <p contents-hash="c421b2499402f2c023d4a976eca268ecc8b311acd418c974e00eec04952ec91d" dmcf-pid="0g3YqMFYvK" dmcf-ptype="general">또한 델, 망고부스트와 협력해 서로 다른 세대의 GPU(MI300X, MI325X, MI355X)를 혼합 사용하면서도 지리적으로 떨어진 시스템을 오케스트레이션하는 '이기종 추론' 기술도 업계 최초로 선보였다.</p> <p contents-hash="39aeebe8efd1450e0e2fb91da0d07a046d7c5e9bbf8042bcf6466cf162258e30" dmcf-pid="pa0GBR3Gvb" dmcf-ptype="general">리사 수 AMD 최고경영자(CEO)는 "이번 결과는 단순한 수치를 넘어 하드웨어와 ROCm 소프트웨어가 결합된 풀스택의 승리"라며 "매년 신제품을 출시하는 연간 로드맵에 따라 2026년 CDNA 5 아키텍처 기반의 MI400 시리즈와 랙 스케일 솔루션인 '헬리오스(Helios)'를 통해 AI 인프라 시장의 정의를 새로 쓸 것"이라고 강조했다.</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.</p> 관련자료 이전 심화되는 TSMC 병목 현상… ‘최대 고객사’ 엔비디아도 생산량 조절 04-02 다음 '유네스코 인류무형문화유산'에 태권도 등재 신청 04-02 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.