[AI칩 지정학] ⑤ K-메모리를 연산 문명 변방으로 밀어낸 HBM의 배신

작성일 03-31

<div id="layerTranslateNotice" style="display:none;"></div> 메모리 강점이 주도권이란 착각 구글의 터보퀀트 비웃음 불러와 증권가식 수요분석 이미 무너져 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="xXiiW2WIgC">
 <figure class="figure_frm origin_fig" contents-hash="d767aa5634d9aaec826d6da68d7107f212fad4a6053b7314d9cad2a68148c678" data-idxno="456730" data-type="photo" dmcf-pid="yJZZMOMVkI" dmcf-ptype="figure">
 <img alt="중국 저장대학교 전경. /저장대" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090010349urvi.png" data-org-width="1280" dmcf-mid="4SK6OUOcaT" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090010349urvi.png" width="658">
 <figcaption class="txt_caption default_figure">
 중국 저장대학교 전경. /저장대
 </figcaption>
 </figure>
 # 미국 실리콘밸리. 소프트웨어 스택과 알고리즘, 연산 아키텍처를 설계하는 두뇌의 진원지다. 엔비디아의 CUDA, 구글의 TPU, 이를 기반으로 쌓아 올린 프레임워크와 모델 구조 전체가 여기서 나온다. 연산을 어떻게 정의하느냐. 권력은 실리콘밸리에 있다.
 딥시크의 고향 중국의 저장성(浙江省). 거대한 데이터와 자본, 이를 국가적 전략으로 밀어붙이는 물량의 진원지다. 알리바바, 화웨이, 바이두가 미국의 제재를 우회하며 독자적 연산 생태계를 구축하고 있다. 배제당한 자리에서 또 다른 질서를 만들어가고 있는 유일한 세력이다.
 타이완 신주(新竹)는 문명의 화룡점정이다. 설계된 연산을 물리 실체로 구현해내는 파운드리 메카다. TSMC가 없으면 엔비디아나 AMD 설계도는 종이에 불과하다. 신주는 설계와 생산 사이의 단순한 연결 지점을 넘어 연산이 '존재'로 바뀌는 최종 관문이다.
 한국은 세계 최고의 HBM을 만든다. 엔비디아 열차에서 가장 비싼 좌석을 잡은 것도 맞다. 그런데 거기서 멈췄어야 할 이야기가 이상하게 흘렀다. "HBM만 만들어내면 AI 주도권도 우리 것"이라는 식의 말이 퍼지기 시작했다. 좌석 하나 잡은 걸로 생태계를 장악한 것처럼 떠드는 순간 기대는 현실이 아니라 착각이 된다.
 <div contents-hash="8019896d3ddfbbb9c6e7ff1aef01490ef8e6352dd8561e4f3cbc2ab4e1dea8a6" dmcf-pid="Xg33iSiPow" dmcf-ptype="general">
 일부 국가주의적 시선과 삼성전자 주변의 과장된 해석이 이걸 키웠다. 메모리 잘 만들면 판을 뒤집을 수 있다는 식, 이제 우리가 중심이라는 식. 그래서 나온 게 PIM(Processing In Memory) 같은 우상이다. 메모리에 계산 회로를 새겨 넣고 "이게 미래다"라고 떠드는 건 기술이 아니라 자기위안이다. 그럼에도 연산은 여전히 GPU, 소프트웨어, 플랫폼이 짜는 판 위에서 돌아간다. 더 우스운 건, 이런 착각을 근거로 미래까지 확신하는 태도다.
 </div>
 <figure class="figure_frm origin_fig" contents-hash="5c7b60b4d40f568be18ba81518b68c9b10f72913dc6b9b658574939ef45ea853" data-idxno="456731" data-type="photo" dmcf-pid="Za00nvnQaD" dmcf-ptype="figure">
 <img alt="18일 경기도 수원시 영통구 수원컨벤션센터에서 열린 제57기 삼성전자 정기주주총회에서 신제윤 삼성전자 이사회 의장을 비롯한 관계자들이 반도체 제조 기술에 대한 설명을 듣고 있다. /연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090011738ctgj.jpg" data-org-width="1200" dmcf-mid="8VSHQmQ9ov" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090011738ctgj.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 18일 경기도 수원시 영통구 수원컨벤션센터에서 열린 제57기 삼성전자 정기주주총회에서 신제윤 삼성전자 이사회 의장을 비롯한 관계자들이 반도체 제조 기술에 대한 설명을 듣고 있다. /연합뉴스
 </figcaption>
 </figure>
 HBM 종주국이면서 이해도 부족 데이터 저장 장치로 봐선 답 없어 
 HBM이 지금처럼 강한 수요를 갖는 이유는 단순하다. 현재 AI 연산 구조가 GPU 중심으로 짜여 있고, GPU가 대량의 데이터를 빠르게 처리하기 위해 HBM을 필요로 하기 때문이다. HBM의 가치는 메모리 자체에서 나오는 것이 아니라, 엔비디아를 중심으로 형성된 연산 구조와 소프트웨어 생태계 위에서 만들어진다. 이 구조가 유지되는 동안에는 HBM의 중요성도 함께 유지된다.
 HBM은 단순히 용량이 커진 메모리가 아니다. 기존 컴퓨팅 구조에서 메모리는 결과를 보관하는 장치였고 연산 장치와 분리된 채 데이터를 반복적으로 주고받았다. 그러나 AI 연산 규모가 확대되면서 데이터 이동 과정에서 병목이 발생하기 시작했다. HBM은 이 이동 비용을 줄이기 위해 메모리를 적층하고 연산 장치 인접 영역에 배치하는 방식으로 설계됐다. 데이터가 빨라졌다기보다 덜 움직이게 된 것이다. "더 빠른 메모리"라기보다 기존 연산 구조의 한계를 더 높은 대역폭과 더 짧은 거리로 눌러버린 우회 설계라는 얘기다.
 GPU 기반 연산 구조는 수천 개의 연산을 동시에 처리하는 대신, 중간 계산 결과를 계속 저장하고 재배치해야 한다. 여러 요리를 한꺼번에 하기 위해 주방 곳곳에 재료를 미리 꺼내놓는 방식이다. 필요한 데이터를 먼저 끌어오고, 기다리는 연산을 뒤로 미루며, 순서를 계속 재배치해 파이프라인이 비지 않도록 만든다. 메모리를 많이 쓰지만 범용성과 안정성을 확보하는 구조다.
 <div contents-hash="500fea6c4a5fcdb590baf3d15a40d8046857f706d2880c63c6668c503bdd70c0" dmcf-pid="3KsszLztjj" dmcf-ptype="general">
 문제는 컨텍스트 길이가 길어질수록 이 구조의 비용이 급격히 불어난다는 점이다. 트랜스포머의 어텐션 메커니즘은 모든 토큰 간 관계를 계산하기 때문에 O(n²) 복잡도를 가진다. 입력 길이가 두 배가 되면 계산량은 네 배로 늘어난다. 여기에 KV 캐시 유지·재사용 비용이 겹치면서, 시스템은 압축과 재연산이 뒤엉킨 불안정한 균형 위에서 움직이게 된다. 겉으로는 즉시 응답처럼 보이지만, 내부에서는 메모리와 연산이 동시에 폭증하는 구조다.
 </div>
 <figure class="figure_frm origin_fig" contents-hash="2efbc5c114a34f5acdcccb61336c9a0da8510f6a94e232a02e97446795dcddc8" data-idxno="456732" data-type="photo" dmcf-pid="09OOqoqFjN" dmcf-ptype="figure">
 <img alt="1983년 삼성전자가 첫 자체 개발 메모리 반도체에 도전할 당시 임직원들의 구호였던 '반도체인의 신조'. / 삼성전자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090013029uajv.jpg" data-org-width="1081" dmcf-mid="6Bok3R3GgS" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090013029uajv.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 1983년 삼성전자가 첫 자체 개발 메모리 반도체에 도전할 당시 임직원들의 구호였던 '반도체인의 신조'. / 삼성전자
 </figcaption>
 </figure>
 과거의 성공이 만든 인지적 함정 DRAM 신화가 저주가 되기까지 
 모든 혼선의 범인은 하나다. 한국인의 의식을 오랫동안 점령해온 K-메모리 신화다. 구조를 보지 못한 채 결과만 반복적으로 관찰하면서 굳어진 해석 습관이다. 한국은 DRAM으로 세계를 제패했다. 그 성공이 너무 강렬했기 때문에, 이후의 모든 판단이 그 경험 위에서 작동하기 시작했다. 메모리를 잘 만들면 판을 지배한다는 공식이 한 번 성립하자 그 공식은 검증 없이 AI 시대로 넘어갔다.
 한국식 해석은 늘 비슷하다. 하나 잘되면 그걸로 전부를 설명하려 든다. 복잡한 구조를 보지 않고 눈에 보이는 성과 하나를 붙잡아 전체 질서를 설명하려는 습관이다. 그래서 순서가 항상 뒤집힌다. 연산 구조가 먼저 판을 만들고 그에 맞춰 메모리가 따라붙는데 증권가는 이걸 거꾸로 읽는다. "메모리가 AI 수요를 이끈다" "메모리가 좋아졌으니 판을 지배한다"는 식이다. 
 메모리 신화는 성공의 유산이 만든 인지의 함정이다. 한 번 통했던 공식을 구조가 바뀐 뒤에도 그대로 들이대는 습관, 결과를 보고 원인을 거꾸로 끼워 맞추는 방식, 판을 설계한 자와 판 위에서 성과를 낸 자를 구분하지 못하는 혼동. 이 세 가지가 겹치는 순간 기술력은 근거가 아니라 착각의 재료로 바뀐다. 또한 이런 신화는 인과를 거꾸로 읽게 만든다. 연산 구조 → 데이터 흐름 → 메모리 구조. 이 순서가 본래다. 메모리는 항상 뒤에 온다. 
 국내에서 HBM의 아버지라 불리는 김정호 카이스트 교수의 궤변이 무너지는 지점도 여기다. 입력이 늘면 메모리가 늘고, 메모리가 늘면 성능이 오른다는 인과 설정은 자동차 연료통이 크면 속도가 빨라진다는 주장과 다르지 않다. 연료통이 없으면 차는 움직이지 않는다. 그러나 속도는 엔진이 만든다. HBM도 마찬가지다. GPU 아키텍처와 소프트웨어 스택이 파이프라인을 설계하고, HBM은 그 흐름이 끊기지 않도록 데이터를 밀어 넣는 버퍼로 작동한다. 캐시 계층의 확장에 가깝다. 원인이 아니라 종속 변수다.
 <div contents-hash="55ef7290b26659d93a8fbaf361d625685934ee0b96787bec7756c087a2e173b3" dmcf-pid="q6vvVcV7Ni" dmcf-ptype="general">
 HBM 공급 능력을 연산 질서의 주도권으로 오독하는 순간, 구조는 무너진다. 메모리가 많으면 해결된다는 사고는 연산 구조를 지워버린 단순화다. 실제로 벌어지는 일은 반대다. 구글이 터보퀀트로 보여줬듯이 연산 구조는 메모리를 줄이기 위해 계속 재설계된다. 압축하고, 재계산하고, 필요 없는 상태를 버린다. HBM이  비용이 되는 순간 아키텍처 개발자들은 메모리를 줄이는 쪽으로 움직인다. 그런데도 한국 시장은 반대로 읽는다. 메모리가 부족하니 더 붙이면 된다고 생각한다. 구조를 바꾸는 대신 자원을 더 투입하는 방식이다. 이 차이가 곧 지능 격차다.
 </div>
 <figure class="figure_frm origin_fig" contents-hash="650e7edf8ec199bcff1a9d41574493ffba1be03ddee541e62012457e2f108c98" data-idxno="456733" data-type="photo" dmcf-pid="BPTTfkfzkJ" dmcf-ptype="figure">
 <img alt='SK하이닉스의 PIM 설명. 데이터 이동만 줄이면 성능이 개선된다는 전제를 깔고 있지만 실제로는 성립하지 않는 단순화다. 생성형 AI의 병목은 메모리 내부가 아니라 GPU 아키텍처와 소프트웨어 스택이 결합된 전체 연산 구조에서 발생한다. PIM은 일부 이동을 줄일 수는 있지만, 범용성을 희생하고 전력·발열·수율 문제를 키우며 전체 구조를 바꾸지 못한다. 결국 "데이터 이동 감소 = 성능 향상"이라는 국지적 효과를 과장한 허구에 가깝다. / 해설=이상헌 기자' class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090014282asqn.jpg" data-org-width="600" dmcf-mid="PBJJy9yOkl" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090014282asqn.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 SK하이닉스의 PIM 설명. 데이터 이동만 줄이면 성능이 개선된다는 전제를 깔고 있지만 실제로는 성립하지 않는 단순화다. 생성형 AI의 병목은 메모리 내부가 아니라 GPU 아키텍처와 소프트웨어 스택이 결합된 전체 연산 구조에서 발생한다. PIM은 일부 이동을 줄일 수는 있지만, 범용성을 희생하고 전력·발열·수율 문제를 키우며 전체 구조를 바꾸지 못한다. 결국 "데이터 이동 감소 = 성능 향상"이라는 국지적 효과를 과장한 허구에 가깝다. / 해설=이상헌 기자
 </figcaption>
 </figure>
 검증되지 않는 PIM 우상화 횡행하며 에이전틱 AI 엮어서 '괴담 수준' 홍보
 에이전틱 AI를 근거로 메모리 수요 폭증을 주장하는 논리는 괴담에 가깝다. 인간의 기억 개념을 그대로 반도체 메모리에 투영하면서 서로 다른 계층을 하나로 묶어버렸기 때문이다. AI에서 말하는 '기억'은 파라미터, KV 캐시, 외부 저장소로 분리된 구조다. 이는 장기 보관, 일시적 상태 유지, 외부 참조라는 전혀 다른 기능을 수행한다. 이를 단일한 "메모리"로 묶는 순간, 분석은 공상 소설 수준으로 내려간다.
 무엇보다 에이전틱 AI에서 컨텍스트는 축적되는 구조가 아니라 분절되고 재귀적으로 재구성되는 구조다. 트랜스포머에서 상태는 무한히 유지되지 않는다. 일정 길이를 넘으면 잘라내고, 요약하고, 외부로 밀어낸 뒤 필요할 때 다시 불러온다. 즉 "기억을 쌓는다"가 아니라 "기억을 버리면서 유지한다"가 실제 동작 방식이다. 그럼에도 국내에선 에이전틱 AI 시대가 오면 컨텍스트 윈도우가 길어져 메모리 슈퍼사이클로 이어질 것이란 괴담이 생성된다.
 결국 이 논리는 하나의 오류로 수렴된다. 연산 문제를 저장 문제로 바꿔 읽은 것이다. AI 성능은 데이터를 얼마나 많이 보관하느냐가 아니라, 연산이 얼마나 끊기지 않도록 유지되느냐에서 결정된다. 이 구조에서는 메모리를 계속 늘리는 것이 아니라, 유지해야 할 상태를 줄이고 재계산을 통제하는 것이 핵심이 된다.
 메모리 신화적 관점으로 보면 HBM을 영원히 오해하게 된다. 저장은 원래 나중에 다시 꺼내 쓰기 위해 데이터를 보관하는 행위다. GPU는 수많은 연산 유닛이 동시에 데이터를 먹어야만 멈추지 않는 장치다. 이때 중요한 것은 "얼마나 오래 저장하느냐"가 아니라 "필요한 순간에 얼마나 끊기지 않고 밀어 넣느냐"다. HBM은 데이터 창고가 아니라 연산 파이프라인이 굶지 않게 하는 고대역폭 급식선에 가깝다.
 HBM을 저장 장치로 이해하면 "많이 담으면 성능이 오른다"는 착시에 빠지기 쉽다. 삼성전자와 SK하이닉스 홈페이지에도 소개되는 PIM이 바로 착각의 극단이다. 데이터 이동이 병목이 되자 "그 자리에서 계산하면 된다"는 발상이지만 이동 비용을 줄이는 대신 연산 비용과 제조 비용을 끌어올린 구조에 불과하다. PIM 방식의 연산은 전력 밀도, 발열, 수율, 공정 복잡도 문제를 동시에 키운다. 벤치마크에서는 성과가 나오지만 실제 인프라에서는 채택되지 않는다. 등장할 때마다 주목받지만 중심이 된 적은 없다.
 <div contents-hash="4b93c23ac3860af7b0af83c1a2c1868a873cf54fb3416493f0491f3d3f4e3169" dmcf-pid="4UccFMFYoP" dmcf-ptype="general">
 결국 메모리를 잘 만든다고 해서 판을 지배하는 것은 아니다. 판을 설계하고, 연산을 배치하고, 자본을 끌어들이는 쪽이 연산 문명을 만든다. 이 기본을 무시하는 순간 한국 시장은 스스로를 주변으로 밀어내게 된다. 그동안 신화라고 믿었던 메모리가 가장 뒤에 온다는 사실을 인정하는 것이 출발점이다.
 </div>
 <figure class="figure_frm origin_fig" contents-hash="a8e15a80cf255e20834687ec3b47566d7c5651342a704d8c6c06eba54c182184" data-idxno="456734" data-type="photo" dmcf-pid="8ukk3R3GA6" dmcf-ptype="figure">
 <img alt="SK그룹 CES 2025 전시관에 전시된 SK하이닉스의 HBM3E 16단 제품 / SK하이닉스 뉴스룸" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090015593hoke.jpg" data-org-width="640" dmcf-mid="QRZZMOMVoh" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/31/552814-8XPEppr/20260331090015593hoke.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 SK그룹 CES 2025 전시관에 전시된 SK하이닉스의 HBM3E 16단 제품 / SK하이닉스 뉴스룸
 </figcaption>
 </figure>
 <div contents-hash="9e15098f10cd97d88ecafa3d57f072feca67651031d7d7582138b984d267bc84" dmcf-pid="67EE0e0HA8" dmcf-ptype="general">
 [보론] HBM은 과연 저장 장치일까?
 </div>
 인공지능 칩에서 HBM을 어떻게 바라보느냐에 따라 연산에 대한 이해도가 달라진다. 낸드 플래시(SSD)와 HBM은 둘 다 '메모리'라고 불리지만 역할은 완전히 다르다. 낸드는 데이터를 오래 보관하는 창고다. 느려도 괜찮다. 중요한 건 데이터가 사라지지 않는 것이다.
 반면 HBM은 연산이 진행되는 동안 필요한 데이터를 끊기지 않게 공급하는 역할을 한다. 중요한 건 속도와 지연이다. 이 차이를 무시하고 둘 다 '메모리'라는 이름으로 묶어버리면 AI 반도체 구조를 분석하는 출발점부터 잘못된다.
 데이터 압축이나 경량화 기술이 나올 때마다 "메모리가 덜 필요해지는 거 아니야?"라는 얘기가 나온다. 하지만 이건 관점의 차이다. 저장 관점에서는 데이터 양이 줄어드니까 "메모리 수요가 줄어드는 것"처럼 보인다. 그러나 연산 관점에서는 유지해야 할 상태의 크기가 줄어드는 것일 뿐, 구조 최적화에 가깝다. AI 연산에서 중요한 건 "얼마나 많은 데이터를 담느냐"가 아니라, "연산에 필요한 상태를 얼마나 안정적으로 유지하느냐"다.
 HBM을 데이터를 오래 보관하는 창고 따위로 이해하면 안 되는 이유다. HBM은 연산 흐름이 끊기지 않도록 상태를 붙잡는 장치다. 대역폭이 넓고, 지연이 짧고, 연산 장치(GPU)와 물리적으로 가깝게 배치되어 데이터 이동 자체를 최소화한다. 이걸 "용량이 큰 메모리"로만 이해하면 HBM이 실제로 하는 일의 절반은 놓치는 셈이다.
 GPU 성능을 이야기할 때 흔히 FLOPS(초당 부동소수점 연산 횟수)라는 숫자를 쓴다. 하지만 실제 시스템에서 중요한 건 "그 연산이 얼마나 멈추지 않고 계속되느냐"다. GPU는 수천 개의 연산 유닛을 동시에 돌리는데, 데이터 공급이 한 번만 끊겨도 전체가 멈춘다. 이때 손실은 단순히 "조금 느려지는" 수준이 아니다. 파이프라인 전체가 정지하면서 손실이 기하급수적으로 커진다. 기술적으로 이런 상태를 메모리 바운드라고 부른다. 해결 방법은 계산을 더 빠르게 하는 게 아니라 데이터를 끊기지 않게 공급하는 것이다.
 챗GPT 같은 AI 모델(트랜스포머 구조)은 현재 입력만 처리하는 게 아니다. 이전에 계산한 결과를 계속 참조하는 상태 의존적 구조다. 이전 상태(K, V)가 없으면 다시 계산해야 하고, 다시 계산하면 연산량이 급증한다. KV 캐시는 이 재계산을 막기 위해 한 번 계산한 결과를 저장해두는 장치다. 여기서 병목은 "얼마나 많이 저장할 수 있느냐"가 아니라 "얼마나 빠르게 접근할 수 있느냐"와 "그 상태를 유지하는 비용"이다. 접근이 느려지는 순간 캐시는 의미가 없어지고, 결국 처음부터 다시 계산하는 상황으로 돌아간다.
 결국 AI 연산에서 진짜 중요한 건 "얼마나 계산했는가"가 아니라 "얼마나 재계산을 피했는가"다. HBM은 재계산을 최소화하기 위해 상태를 붙잡는 장치다. 최신 기술들은 상태 자체를 줄이는 방식으로 같은 문제를 해결하려 한다. 방향은 다르지만 목표는 같다. 연산이 끊기지 않는 구조를 만드는 것.
 정리하면 저장 중심 해석은 "얼마나 많은 데이터를 담을 수 있는가"를 묻고, 흐름 중심 해석은 "얼마나 멈추지 않고 연산을 지속할 수 있는가"를 묻는다. 지금의 혼선은 이 두 질문이 뒤바뀌면서 발생한다. HBM을 저장 장치로 보는 시각으로는 연산 구조에 접근하기조차 어렵다.
 여성경제신문 이상헌 기자 liberty@seoulmedia.co.kr
 *여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.
 </section> 
 </div>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

[AI칩 지정학] ⑤ K-메모리를 연산 문명 변방으로 밀어낸 HBM의 배신

멤버랭킹

관련자료

멤버랭킹