HBM 다음 카드는 'HBF'…김정호 카이스트 교수 "AI 병목은 메모리, GPU 옆에 '계층' 다시 짜야" 작성일 02-03 28 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">[반도체레이다]</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="buWEJxjJCJ"> <figure class="figure_frm origin_fig" contents-hash="31a1de33cdf163fc5f736535cf88d73f79b2d7ce408aa117bf7ffa5f9f749051" dmcf-pid="K7YDiMAiWd" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/03/552796-pzfp7fF/20260203141816375njge.jpg" data-org-width="640" dmcf-mid="qKERK7PKhn" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/03/552796-pzfp7fF/20260203141816375njge.jpg" width="658"></p> </figure> <p contents-hash="83daf2241cbf72d392faf2a5e7e468fbc12a5edfe66f8464e97b645a8abff32a" dmcf-pid="90vAR6gRTe" dmcf-ptype="general">[디지털데일리 배태용기자] <strong>"GPU(그래픽처리장치)의 혁신은 거의 끝나갑니다. 앞으로의 성능 향상은 메모리에서 올 겁니다."</strong></p> <p contents-hash="39e15e0863cae2733c395e3388adb7769e2eddf509fcdfb87db6840e7e17e799" dmcf-pid="2pTcePaeSR" dmcf-ptype="general">김정호 카이스트(KAIST) 전기 및 전자공학부 교수는 3일 서울 프레스센터에서 열린 'HBF 연구 소개 및 기술개발 전략 설명회'에서 인공지능(AI) 컴퓨팅의 다음 병목으로 '메모리 계층(하이어라키)'을 콕 집었다. 그래픽처리장치(GPU) 성능만 끌어올리는 방식이 한계에 다다르는 만큼 GPU 주변 메모리 구조를 근본적으로 바꾸지 않으면 추론 서비스의 속도와 비용이 함께 막힌다는 주장이다.</p> <p contents-hash="a562774f0d7e56a68ae115884596c096c7d5647e45b715dc90b2b82aad0fc204" dmcf-pid="VUykdQNdvM" dmcf-ptype="general">김 교수의 문제의식은 간단하다. AI가 '트랜스포머' 기반으로 진화하면서 입력(프리필) 과정에서 만들어지는 '키-밸류(KV) 캐시'가 폭증했고 멀티모달·로봇 등으로 데이터량은 더 커지고 있다. 그는 "멀티모달로 갈수록 데이터가 천 배 늘어난다"며 "지금보다 100배에서 1000배 정도 메모리가 더 필요해진다"고 말했다. 추론 과정에서 단어·프레임을 뽑아내는 생성 속도는 결국 메모리 대역폭과 용량이 좌우하는데 여기서 GPU만 비싸게 키워서는 체감 성능이 따라오지 않는다는 의미다.</p> <p contents-hash="e2ec1ff6fbf90ed616e94a6e8d56254ea59e13637b9462e0daa0317746cd8d0b" dmcf-pid="fuWEJxjJlx" dmcf-ptype="general">핵심은 'HBM의 물리적 한계'다. 김 교수는 "HBM은 쌓아봐야 200GB 수준"이라며 모델과 KV 캐시가 커질수록 여러 장비로 나눠 읽어야 하는 시간이 늘고 사용자 불만(지연 비용)이 커진다고 봤다. 그래서 내놓은 해법이 HBM 바깥에 'HBF'를 두는 새로운 계층 구조다. 개념도는 GPU를 중심으로 HBM과 HBF를 함께 배치해 작업 특성에 따라 메모리를 나눠 쓰는 방식을 제시했다. 그는 "속도를 결정하는 게 HBM이면 용량을 결정하는 게 HBF"라고 정리했다.</p> <figure class="figure_frm origin_fig" contents-hash="059923530aba6d2cbe00dbef7a16b6b3d50983fca7de3206f37af9380a354b3f" dmcf-pid="47YDiMAiWQ" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202602/03/552796-pzfp7fF/20260203141817753riup.jpg" data-org-width="640" dmcf-mid="Bc80yh1yWi" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/03/552796-pzfp7fF/20260203141817753riup.jpg" width="658"></p> </figure> <p contents-hash="728c11919b8d977213b89c436b122515239a46ea4dc352a0709fee8dbd1000bb" dmcf-pid="8zGwnRcnlP" dmcf-ptype="general">김 교수 측은 1개의 HBM 묶음이 24GB(스택당 1.5GB) 수준인 반면 1개의 HBF는 512GB(스택당 32GB)까지 커질 수 있다고 제시했다. 8개 HBF 구성만으로도 총 4TB까지 용량을 늘리는 시나리오다. 여기에 'HBF 소켓(SSD)'을 붙이는 형태까지 확장하면 48~96TB급 저장계층을 추가하는 구조도 포함됐다. 그는 최근 업계에서 거론되는 '컨텍스트 메모리' 흐름을 언급하며, 추론에서 필요한 맥락 데이터를 빠르게 '오프로딩'하는 길목에 HBF를 끼워 넣어 병목을 줄이겠다는 구상도 내놨다.</p> <p contents-hash="4643e57cd1ec7ca1d4f5d383c0e43eb883fa08efb1d6be9eb339ad670b47fa52" dmcf-pid="6qHrLekLh6" dmcf-ptype="general">김 교수는 장기적으로는 메모리의 역할이 '부품'에서 '아키텍처의 주도권'으로 이동한다고 봤다. 지금까지는 중앙처리장치(CPU) 옆에 메모리가 붙어 있고 필요할 때 GPU를 달아 가속하는 구조였지만 AI 시대에는 GPU가 데이터와 메모리의 중심이 돼야 한다는 논리다. 그는 "이 전체를 GPU에 바로 붙이면 10~20년 뒤 AI 컴퓨터를 한국이 주도할 수 있다"고 했다.</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.</p> 관련자료 이전 “AI 에이전트, 도구인가 구멍인가”... OWASP 서울 1월 세미나 02-03 다음 삼성·SK하닉 시총, 알리바바·텐센트 제쳤다…“AI 투자 축 이동 신호” 02-03 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.