[인터뷰] 해밀턴 WD 디렉터 "NVMe-oF, HBM 부담 덜 SSD 확장 계층 될 것"

작성일 06-05

<div id="layerTranslateNotice" style="display:none;"></div> [반도체레이다] 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="Qi4AMcsAln">
 [컴퓨텍스 2026] KV 캐시 폭증에 HBM 용량 압박…외부 SSD 계층 주목
 OpenFlex Data24, 로컬 SSD 수준 성능…"고대역폭·저지연 구현"
 <div contents-hash="265b94cafd26275c550939a95db7fa40e6fccf66530c6209088758ed2a3e1086" dmcf-pid="WWmtlFztyd" dmcf-ptype="general">
 "SSD는 빠른 처리, HDD는 장기 보관" AI 데이터 역할 분화
 </div>
 <figure class="figure_frm origin_fig" contents-hash="8fb261cf97c401e73b7778474c710c5065aec2e7357f2c62286929ff5e728d5d" dmcf-pid="YYsFS3qFWe" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/05/552796-pzfp7fF/20260605070018476epvn.jpg" data-org-width="640" dmcf-mid="6yQ7GzV7vo" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/05/552796-pzfp7fF/20260605070018476epvn.jpg" width="658">
 </figure>
 [타이베이(대만)=디지털데일리 고성현기자] "값비싼 GPU 자원이 놀지 않도록 구동시키기 위해서는 이를 계속 활용할 수 있는 SSD 자원이 필요하다. (AI 시스템이) 작은 모델을 넘어서면 데이터 용량이 메모리를 초과해 KV 캐시(Cache) 추가 운용이 필요해지기 때문이다. NVMe-oF의 핵심 개념은 더 많은 SSD 용량을 제공하는 확장 계층으로 이를 지원하는 데 있다."
 웨스턴디지털(WD)이 AI 데이터센터 내 최대 병목으로 꼽히는 메모리 용량 한계를 넘겠다는 포부를 드러냈다. 핵심 기술인 'NVMe-oF 패브릭' 플랫폼을 통해서다. 특히 이 플랫폼이 급증한 KV 캐시를 안정적으로 운용할 핵심 열쇠가 될 것으로 전망했다.
 스콧 해밀턴 WD 제품 관리·마케팅·소비자 경험(CX) 담당 시니어 디렉터는 3일 '컴퓨텍스 2026'이 열리는 대만 타이베이 난강전시관에서 &lt;디지털데일리&gt;와 만나 "작은 모델을 넘어서면 데이터 용량이 메모리를 초과해 문맥(Context) 또는 KV 캐시를 저장할 역량이 필요해진다"며 "우리의 NVMe-oF 패브릭 인클로저는 더 큰 모델을 위해 더 많은 데이터를 활용할 수 있도록 확장을 제공한다"며 이처럼 밝혔다.
 WD는 글로벌 반도체 저장장치 제조사다. 낸드플래시 기반의 솔리드스테이트드라이브(SSD)와 플래터 기반 하드디스크(HDD) 등을 제조한다. 최근에는 AI 인프라 확대에 맞춰 고용량 HDD와 고대역폭·저지연성 SSD 포트폴리오를 구축하고 있다.
 최근 AI 인프라는 데이터 급증에 따라 GPU 메모리 용량과 데이터 공급 구조가 병목으로 떠오르고 있다. 이른바 메모리 장벽(Memory Wall) 문제다. 사용자의 요청(Query)이 복잡해지며 컨텍스트가 늘어나고, 쿼리 응답을 위해 계산했던 키-밸류(Key-Value) 값을 저장한 KV 캐시가 급증하면서 GPU가 연산 과정에서 활용하는 고대역폭메모리(HBM)의 용량 압박이 커진 영향이다.
 이에 따라 최근 AI 인프라에서는 HBM에 모든 데이터를 담는 방식에서 벗어나 GPU 메모리, 호스트 D램, 로컬 SSD, 외부 SSD 등을 용도에 따라 나눠 쓰는 메모리 계층화 구조가 확대되고 있다.
 WD는 메모리 계층화에 따른 대안으로 오픈플렉스(OpenFlex) Data24 4000 시리즈를 내세우고 있다. 이는 NVMe SSD를 고성능 이더넷 패브릭으로 공유하는 NVMe-oF 저장장치 플랫폼으로, 로컬 NVMe SSD와 유사한 성능으로 유연성 있는 용량을 제공하겠다는 방식이다. 이를 활용하면 HBM과 호스트 D램이 감당하지 못하는 KV 캐시 일부를 외부 SSD 계층으로 넘겨 저장할 수 있다. 또 저장장치 자원을 서버 내부에 묶어두지 않고 패브릭으로 공유해 총소유비용(TCO)을 낮출 수 있다.
 해밀턴 시니어 디렉터는 "우리는 KV 캐시 시나리오에서 다양한 테스트를 진행했고, 그 결과 NVMe-oF의 초당 토큰 수가 로컬 SSD의 수와 매우 가까웠다"고 강조했다.
 통상 이더넷 등 네트워크는 PCIe 등 직접 연결된 환경에 비해 대역폭이 낮다. 이로 인해 데이터 이동 속도가 줄어 GPU 자원이 제대로 활용되지 못하는 병목을 유발하는 요인으로 꼽혔다. 해밀턴 디렉터의 언급은 이더넷을 연결한 NVMe-oF가 GPU 랙 내에 장착된 로컬 SSD와 유사한 대역폭과 성능을 가져 데이터 병목 없이 활용할 수 있다는 뜻으로 해석된다.
 WD가 최근 공개한 기술 리포트에 따르면 70B 모델과 H100 4개 기반 추론 노드에서 GPU HBM만 활용한 경우의 초당 생성 토큰 수(TPS)는 동시 대화 4개 처리 기준 34.39였다. 로컬 SSD를 활용한 경우 TPS는 33.94로 1.3% 줄었고, NVMe-oF는 33.79로 1.7% 감소했다. 두 방식의 차이는 0.4%포인트에 불과했다.
 응답 지연도 크게 늘지 않았다. 첫 토큰 생성 시간(TTFT)은 NVMe-oF가 로컬 SSD보다 2.4~2.9% 짧게 측정됐다. WD는 P99 기준 최악 지연도 로컬 SSD와 원격 SSD 계층 간 차이가 거의 없었고, 모든 구성에서 실패율이 0%였다고 설명했다.
 <div contents-hash="37d77e16ee99ff6b3e5f09511f39b3662ce0545356a22c3c4b229ccf82a4ec9b" dmcf-pid="UfURbegRC9" dmcf-ptype="general">
 이는 NVMe-oF 플랫폼이 네트워크를 거쳐 외부 SSD를 활용하더라도 로컬 SSD와 유사한 수준의 추론 처리량과 응답성을 제공할 수 있다는 의미다.
 </div>
 <figure class="figure_frm origin_fig" contents-hash="d5ba29a87b36836d347fab4d17b7c5c6f3aae2326d5b75b79c3ad8d029eb33b7" dmcf-pid="u4ueKdaelK" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/05/552796-pzfp7fF/20260605070019760xscs.jpg" data-org-width="640" dmcf-mid="PPRmLsvmhL" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/05/552796-pzfp7fF/20260605070019760xscs.jpg" width="658">
 </figure>
 해밀턴 디렉터는 NVMe-oF 기반 SSD가 메모리 부족 상황을 타개할 확장 계층의 역할을 할 것으로 봤다. 그는 "D램이 무한하다면 KV 캐시를 낸드플래시로 오프로드하지 않을 것"이라며 "D램이 무한하지 않다는 조건이라면 그것은 좋은 확장이고 좋은 계층"이라고 말했다.
 또 NVMe-oF가 로컬 SSD와 유사한 성능을 내는 이유로는 자체 패브릭 브리지 구조를 꼽았다. 해밀턴 디렉터는 "NVMe-oF 플랫폼이 고대역폭·저지연인 이유는 PCIe를 이더넷으로 변환하는 패브릭 브리지 디바이스 때문"이라며 "그것은 ASIC이고 칩이다. 모든 데이터 경로가 하드웨어인 스테이트 머신을 통과하며 이는 매우 높은 성능을 낸다"고 설명했다.
 NVMe-oF의 또 다른 강점으로는 유연성을 꼽았다. 기존 로컬 SSD 방식은 GPU 서버 안에 저장장치를 직접 꽂아 쓰는 구조라 서버마다 용량이 고정된다. 이로 인해 어떤 서버에는 저장공간이 남고, 다른 서버에는 부족해도 자원을 쉽게 나눠 쓰기 어렵다. 반면 NVMe-oF는 SSD를 서버 밖의 공유 자원처럼 두고 여러 GPU 노드가 필요에 따라 접근하는 구조다. GPU 노드와 저장장치를 따로 늘리거나 줄일 수 있어 인프라 전체 운용 효율을 높일 수 있다.
 해밀턴 디렉터는 "NVMe-oF의 핵심 개념은 더 많은 SSD를 제공하는 확장이라는 점"이라며 "로컬처럼 보이지만 로컬은 아니다 SSD 풀이 패브릭에 연결돼 있으면 더 필요할 때 더 많이 접근할 수 있다. 패브릭 위에 있기 때문이고 박스 안에 갇혀 있지 않다"고 강조했다.
 특히 이 방식이 하이퍼스케일급 대형 데이터센터뿐 아니라 온프레미스, 엔터프라이즈, 클라우드 등 환경 전반에 적용될 수 있다고 전했다.
 해밀턴 디렉터는 "AI 여정의 어디에 있든, 온프레미스든 소규모 기업이든 엔터프라이즈든 클라우드든 핵심은 결국 규모"라며 "GPU는 매우 비싼 장치고 이를 계속해서 유휴 상태가 되지 않게 사용해야 한다. 이를 위한 핵심은 결국 충분한 용량의 SSD를 제공하는 것"이라고 전했다.
 그는 WD의 주력 제품군 중 하나인 HDD 포트폴리오의 중요성도 강조했다. 당초 HDD는 SSD보다 제공할 수 있는 용량이 크지만 느려 AI 인프라에 부적합할 것으로 전망됐다. 하지만 AI 모델을 만들기 위한 원천 데이터, 학습·추론에 들어가는 과거의 중간 결과값을 보관하는 역할로 주목받고 있다.
 해밀턴 디렉터는 "현재 작업에 필요한 중간 저장값은 빠른 접근을 위해 SSD에 두는 경우가 많지만, 나중에 되돌아갈 수 있는 이전 버전들은 HDD에 저장되는 경우가 많다"며 "AI 데이터는 계속 쌓이기 때문에 이를 모두 SSD에 담기는 어렵다. 오래 보관할 수 있는 저장장치가 필요하고, 그 지점에서 HDD가 역할을 할 것"이라고 말했다.
 </section> 
 </div> 
 Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.

이전

영웅시대의 희망 패스…장애인축구 위해 300만원 기부

06-05
다음

"AI GPU 안정적인 운영, 강력한 전원공급장치로 뒷받침"

06-05

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

[인터뷰] 해밀턴 WD 디렉터 "NVMe-oF, HBM 부담 덜 SSD 확장 계층 될 것"

멤버랭킹

관련자료

멤버랭킹