[기자수첩] 젠슨 황의 GPU 제국을 이기고 싶나?···결국 SRAM 말곤 답 없다 작성일 06-05 24 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">젠슨 황 이중 전략 핵심은 배우는 지능 <br>플롭스보다 캐시 적중률이 중요해져 <br>온디바이스 넘어 온하우스 대비해야</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="YTF2jkOc15"> <figure class="figure_frm origin_fig" contents-hash="cc62595a865409a490edd0582d8bf6471332afbc0c72d84aa55a3f3e655aee31" data-idxno="459245" data-type="photo" dmcf-pid="Gy3VAEIkHZ" dmcf-ptype="figure"> <p class="link_figure"><img alt="젠슨 황은 컴퓨텍스 2026에서 베라(Vera)를 "AI 시대를 위한 CPU"로 규정했다. 이는 CPU의 역할을 운영체제와 애플리케이션을 실행하는 범용 프로세서에서 에이전트의 작업 흐름을 관리하는 제어 계층으로 재정의하겠다는 의미다. 실제로 베라가 데이터 이동과 작업 스케줄링 병목을 줄이는 방향으로 설계된 만큼, 향후 하네스(Harness) 역시 단순 소프트웨어 프레임워크를 넘어 CPU 차원에서 직접 에이전트 상태(State)와 메모리, 작업 우선순위를 관리하는 구조로 진화할 가능성이 있다. 결국 베라가 연산 자원을 공급하고 하네스가 에이전트 행동을 통제하는 현재의 이원 구조는 장기적으로 하나의 통합 제어 계층으로 수렴할 수 있으며, 이는 CPU가 에이전트의 '두뇌'가 아니라 '관제탑' 역할을 맡게 된다는 신호로 해석된다. / 이상헌 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135433647eact.png" data-org-width="1280" dmcf-mid="PvSOp72uG0" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135433647eact.png" width="658"></p> <figcaption class="txt_caption default_figure"> 젠슨 황은 컴퓨텍스 2026에서 베라(Vera)를 "AI 시대를 위한 CPU"로 규정했다. 이는 CPU의 역할을 운영체제와 애플리케이션을 실행하는 범용 프로세서에서 에이전트의 작업 흐름을 관리하는 제어 계층으로 재정의하겠다는 의미다. 실제로 베라가 데이터 이동과 작업 스케줄링 병목을 줄이는 방향으로 설계된 만큼, 향후 하네스(Harness) 역시 단순 소프트웨어 프레임워크를 넘어 CPU 차원에서 직접 에이전트 상태(State)와 메모리, 작업 우선순위를 관리하는 구조로 진화할 가능성이 있다. 결국 베라가 연산 자원을 공급하고 하네스가 에이전트 행동을 통제하는 현재의 이원 구조는 장기적으로 하나의 통합 제어 계층으로 수렴할 수 있으며, 이는 CPU가 에이전트의 '두뇌'가 아니라 '관제탑' 역할을 맡게 된다는 신호로 해석된다. / 이상헌 기자 </figcaption> </figure> <p contents-hash="d82b1b757d9765cd582bca5f95ead6ffc4c9e1621eebc686f33a6c6e3cf465e2" dmcf-pid="HW0fcDCEXX" dmcf-ptype="general">인공지능(AI) 산업의 패권 경쟁이 소프트웨어에서 하드웨어로 빠르게 이동하고 있다. 지금까지 테크계의 관심은 HBM(고대역폭 메모리) 적재량과 파운드리 미세공정 수율 경쟁에 집중돼 왔다. 엔비디아 GPU 독점을 깨겠다며 너도나도 앞다퉈 3나노, 2나노 공정을 선언했다.</p> <p contents-hash="5c5b7c1a2945d850bd4ec87d7a4e1610aae7cf71e8daa18891a4dc7023368ecd" dmcf-pid="XYp4kwhD1H" dmcf-ptype="general">물론 나노 공정을 고도화해 더 많은 트랜지스터를 집적하고 각종의 xPU 코어 수를 늘리는 것도 중요하다. 그러나 젠슨 황 엔비디아 최고경영자(CEO)가 컴퓨텍스 2026에서 공개한 베라(Vera) CPU와 하네스(Harness) 개념은 논의의 축 자체를 바꿔놓았다.</p> <p contents-hash="cfb31f27a75874afa646fb7bac1ab7532524e24d6acf24cfad15182d05ddf5dd" dmcf-pid="ZGU8ErlwHG" dmcf-ptype="general">더 많은 연산을 수행하는 것이 중요한가, 아니면 불필요한 연산과 데이터 이동을 제거하는 것이 중요한가라는 질문이다. 젠슨 황은 둘 중 하나를 선택하지 않았다. 오히려 두 마리 토끼를 동시에 잡는 방향을 택했다.</p> <p contents-hash="78efd6ac130a398341b480cfb6ddf93b75b85004ea837b595b972a091db73a06" dmcf-pid="5Hu6DmSrtY" dmcf-ptype="general">베라 CPU는 GPU에 데이터를 공급하는 병목을 줄이고, 차세대 루빈 플랫폼은 더 높은 연산 밀도를 제공한다. 동시에 하네스(Harness)는 에이전트가 무의미한 반복 루프에 빠지는 것을 막아 불필요한 데이터 이동을 줄인다. 다시 말해 한쪽에서는 연산 능력을 극대화하고, 다른 한쪽에서는 낭비되는 연산을 제거하는 이중 전략이다.</p> <p contents-hash="277c5fd4c8ebe5b12936c3807532c2aa652de661fcb15f45e253255fdf55f1c2" dmcf-pid="1ZzQrOTs1W" dmcf-ptype="general">이는 단순히 GPU를 더 많이 연결하는 규모의 경쟁과는 차원이 다르다. 에이전트 시대의 병목은 이른바 플롭스(FLOPS, Floating Point Operations Per Second) 부족이 아니라 데이터 이동과 반복 호출에서 발생하기 때문이다.</p> <p contents-hash="e975d5819475f88e460b20a825675ea66ed1604e1b48fed5856367f3bba0c1f4" dmcf-pid="t5qxmIyOGy" dmcf-ptype="general">GPU 성능을 두 배 높여도 동일한 작업을 다섯 번 반복하면 결국 전체 시스템 효율은 떨어진다. 반대로 하네스를 통해 중복 추론을 제거하면 같은 GPU로도 더 많은 작업을 수행할 수 있다. 결국 젠슨 황이 바라보는 미래는 "더 빠른 칩"만으로 설명되지 않는다. 연산량 증대와 연산 낭비 제거를 동시에 추진하는 구조다.</p> <p contents-hash="136a8064fc03b9a2fd79363f24db63618a15f32e52f4138ab2806c0bf9db1a68" dmcf-pid="F1BMsCWIGT" dmcf-ptype="general">결국 차세대 AI 반도체 경쟁은 얼마나 적은 데이터 이동으로 얼마나 많은 유효 연산을 수행하느냐의 문제로 수렴한다. GPU 내부의 텐서코어는 수백~수천 TFLOPS를 처리할 수 있지만, 필요한 데이터를 적시에 공급하지 못하면 연산 유닛은 대기 상태에 빠진다. AI 산업이 말하는 추론 비용 상당수도 결국 데이터 이동 비용이다.</p> <p contents-hash="d0c6469089efb55c9d011d56b4aff812cf0ae77093c79b0fbf4380d214e7a1a8" dmcf-pid="3tbROhYCXv" dmcf-ptype="general">특히 에이전트 시대에 들어서며 이 문제는 더욱 심화되고 있다. 단순 챗봇은 한 번의 순방향 연산(Forward Pass)으로 응답을 생성하고 종료된다. 반면 에이전트는 맥락(Context), 관찰(Observe), 추론(Reason), 행동(Act)을 반복 수행한다. 이 과정에서 검색 엔진, 데이터베이스, API, 메모리 계층을 끊임없이 오가며 데이터를 재호출한다.</p> <p contents-hash="185c6990a9db6dc238ca118a144a286988a91a8eeff311e0011799976f22c873" dmcf-pid="0FKeIlGhGS" dmcf-ptype="general">문제는 이 루프가 길어질수록 컨텍스트 윈도우와 KV 캐시가 팽창하고, 메모리 접근량과 데이터 이동량도 함께 증가한다는 점이다. 트랜스포머 구조 특성상 컨텍스트 길이가 늘어날수록 어텐션 계산 비용은 급격히 증가한다. GPU가 수행하는 작업 상당수는 실제 연산이 아니라 가중치와 활성값을 HBM에서 읽고 다시 쓰는 작업에 소비된다.</p> <p contents-hash="f1eecd0f4b8b6c5b1833af9bc96b981e06c71bdd70fe797e5ff50a2983b8b4ea" dmcf-pid="p39dCSHlYl" dmcf-ptype="general">현재 GPU 아키텍처가 가진 근본적 한계도 여기에 있다. 아무리 HBM 대역폭을 높여도 메모리와 연산 장치는 물리적으로 분리돼 있다. GPU 다이와 HBM 스택은 실리콘 인터포저 위에서 연결될 뿐이다. 결국 모든 데이터는 버스를 통해 이동해야 한다.</p> <p contents-hash="b8a8e103b06a2cb8eaa9cd336bf11babbef07943344e0b251203be065f230ba5" dmcf-pid="U02JhvXSXh" dmcf-ptype="general">HBM은 DRAM 계열 메모리다. 전하를 축전기에 저장하는 구조인 만큼 충·방전 과정이 필수적이다. 대역폭은 계속 증가하고 있지만, 데이터 이동에 따른 지연시간과 에너지 소비는 완전히 제거할 수 없다. AI 모델 규모가 커질수록 HBM 적재량 경쟁이 반복되는 이유도 결국 같은 문제를 더 큰 규모로 해결하려는 시도로 볼 수 있다.</p> <p contents-hash="b5869ea24b9d2c782547884e6b5830271e16cfe1f07c90a3107dff494ab03ce5" dmcf-pid="upVilTZvYC" dmcf-ptype="general">반면 SRAM(Static Random Access Memory)은 다른 길을 제시한다. SRAM은 전하를 저장하는 대신 플립플롭 회로 상태 자체로 정보를 유지한다. 무엇보다 프로세서 코어 바로 옆에 배치될 수 있다. L1, L2, L3 캐시가 모두 SRAM 기반인 이유다.</p> <p contents-hash="36c6d1481f68d2042efea07359a75d94cec06eb30475d9e7c70e57819b609dfa" dmcf-pid="7UfnSy5TtI" dmcf-ptype="general">다만 같은 SRAM이라도 역할은 다르다. L1 캐시는 연산 유닛 바로 옆에서 동작하는 초근접 저장소다. 용량은 작지만 지연시간이 가장 짧다. CPU나 GPU 코어가 현재 수행 중인 연산에 필요한 데이터가 여기에 존재하면 사실상 즉시 접근이 가능하다.</p> <p contents-hash="7bd121111c9485504588a351f57812b066a2276e32d7c4c6389854531cbf4d27" dmcf-pid="zqPaWH3GHO" dmcf-ptype="general">L2 캐시는 L1보다 크지만 약간 더 느리며, 여러 연산 블록이 공통으로 활용하는 중간 저장소 역할을 담당한다. L3는 칩 전체가 공유하는 마지막 온칩 캐시 계층으로, HBM이나 DRAM으로 나가기 전 데이터를 붙잡아두는 최종 방어선이다.</p> <div contents-hash="3cd467d9db2fa2e3fc89125d8fc1b94618c64e506267adb5360d8000238426f4" dmcf-pid="qBQNYX0Hts" dmcf-ptype="general"> 결국 AI 시스템의 성능은 얼마나 많은 데이터를 보유하느냐보다 얼마나 많은 데이터를 L1·L2·L3 계층 내부에 오래 붙잡아 둘 수 있느냐에 달려 있다. 수십 TFLOPS, 수백 TFLOPS의 연산 성능을 확보하더라도 필요한 데이터가 HBM에 머물러 있다면 결국 인터커넥트를 건너야 한다. 반대로 데이터가 온칩 SRAM 계층에 존재하면 지연시간과 전력 소비를 극적으로 줄일 수 있다. </div> <figure class="figure_frm origin_fig" contents-hash="8ea895943a5bf300f615f50d3c7083f8daab76856437b2677342720020295732" data-idxno="459247" data-type="photo" dmcf-pid="BbxjGZpXZm" dmcf-ptype="figure"> <p class="link_figure"><img alt="대만 컴퓨텍스 전시장에 전시된 AI 서버용 고다층 PCB(인쇄회로기판) 시제품들이다. 사진 속 적색·녹색 대형 기판은 GPU 가속기 카드와 AI 서버 백플레인에 사용되는 초고밀도 PCB 구조를 보여주며, 수천 개의 신호선과 전력선을 안정적으로 연결하기 위해 수십 층의 배선층이 집적된 것이 특징이다. AI 반도체 경쟁이 칩 설계를 넘어 기판·패키징·전력 공급망 경쟁으로 확장되고 있음을 보여주는 장면이다. / 이상헌 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135434999cmsm.jpg" data-org-width="1280" dmcf-mid="QNHCuqfzZ3" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135434999cmsm.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 대만 컴퓨텍스 전시장에 전시된 AI 서버용 고다층 PCB(인쇄회로기판) 시제품들이다. 사진 속 적색·녹색 대형 기판은 GPU 가속기 카드와 AI 서버 백플레인에 사용되는 초고밀도 PCB 구조를 보여주며, 수천 개의 신호선과 전력선을 안정적으로 연결하기 위해 수십 층의 배선층이 집적된 것이 특징이다. AI 반도체 경쟁이 칩 설계를 넘어 기판·패키징·전력 공급망 경쟁으로 확장되고 있음을 보여주는 장면이다. / 이상헌 기자 </figcaption> </figure> <p contents-hash="e36bea34f81058a0c92b47b4cbcd8efc2ba5f483e0e4d9155b90541fe8dbef84" dmcf-pid="bKMAH5UZGr" dmcf-ptype="general"><strong>젠슨 황의 하네스(Harness) 정체</strong><br><strong>배우고 행동하는 AI 시대로 진화</strong><br><strong>아모데이식 헌법 따위 필요 없어져</strong></p> <p contents-hash="2ea71ff72eac8eaff36143eaeacadc4f42067913e8f4bb66f2f4fc1cc7e4f168" dmcf-pid="K9RcX1u5Zw" dmcf-ptype="general">흥미롭게도 최근 퀄컴의 퍼스널 그래프(Personal Graph), 마이크로소프트의 에이전트 메모리(Agent Memory), 엔비디아의 하네스(Harness)가 모두 사실상 같은 방향을 바라보고 있다. 표면적으로는 소프트웨어 메모리 계층처럼 보이지만, 물리계층 관점에서는 "자주 사용하는 정보를 가능한 한 가까운 곳에 유지한다"는 캐시 철학의 확장판에 가깝다.</p> <p contents-hash="c1942af60e34647f578cff724f644b94a1ec4c03f135b3f2e5d02f873b8df057" dmcf-pid="92ekZt71XD" dmcf-ptype="general">과거 CPU 시대의 핵심이 L1·L2·L3 캐시 적중률(Cache Hit Rate)을 높이는 것이었다면, 에이전트 시대의 핵심은 사용자의 장기 기억과 작업 상태, 문맥(Context)을 가능한 한 로컬 계층에 유지하는 것이다. 사용자가 매번 같은 파일을 열고, 같은 검색을 수행하고, 같은 API를 호출할 때마다 데이터센터까지 왕복하는 HBM과 DRAM 시대에 불가피한 진화 방향이다.</p> <div contents-hash="52ad8d5b7a83ee7434774f857b7f02a81f4db54931027d67ba3e4e5d7dcbf4fc" dmcf-pid="2VdE5Fzt5E" dmcf-ptype="general"> 미래 AI 경쟁은 파라미터보다 캐시 경쟁이 될 전망이다. 수조 개 파라미터를 가진 모델이라도 필요한 정보를 매번 원격에서 불러와야 한다면 결국 지연시간과 비용의 벽에 부딪힌다. 반대로 사용자의 문맥과 작업 상태를 SRAM에 가까운 계층에 붙잡아 둘 수 있다면 훨씬 적은 연산으로도 더 빠른 응답이 가능하다. </div> <figure class="figure_frm origin_fig" contents-hash="c021c41877031adc57d51a763d1d48d8e7b8b0ae1b7c8d867f8fa08cce92adaf" data-idxno="459244" data-type="photo" dmcf-pid="VfJD13qF5k" dmcf-ptype="figure"> <p class="link_figure"><img alt="엔비디아와 마이크로소프트가 공개한 'Reinvent PC' 구조는 AI PC의 중심축이 거대 클라우드 모델이 아니라 PC 내부에서 직접 구동되는 온디바이스(On-Device) 모델임을 보여준다. DeepSeek·Gemma·GLM·GPT-OSS·Kimi·MiniMax·Nemotron·Qwen 등은 OpenShell 아래 로컬 실행 계층에 배치된 반면, Claude와 ChatGPT 등은 필요 시 연결되는 외부 클라우드 노드로 분리됐다. AI 산업의 경쟁이 단순 모델 성능에서 벗어나 메모리 효율성, 전력 소비, 오프라인 실행 능력, 하드웨어 최적화 중심으로 이동하고 있음을 상징적으로 보여주는 장면이다. / GPT-5.5" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135436304oijw.png" data-org-width="600" dmcf-mid="x0uX4PJ6XF" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135436304oijw.png" width="658"></p> <figcaption class="txt_caption default_figure"> 엔비디아와 마이크로소프트가 공개한 'Reinvent PC' 구조는 AI PC의 중심축이 거대 클라우드 모델이 아니라 PC 내부에서 직접 구동되는 온디바이스(On-Device) 모델임을 보여준다. DeepSeek·Gemma·GLM·GPT-OSS·Kimi·MiniMax·Nemotron·Qwen 등은 OpenShell 아래 로컬 실행 계층에 배치된 반면, Claude와 ChatGPT 등은 필요 시 연결되는 외부 클라우드 노드로 분리됐다. AI 산업의 경쟁이 단순 모델 성능에서 벗어나 메모리 효율성, 전력 소비, 오프라인 실행 능력, 하드웨어 최적화 중심으로 이동하고 있음을 상징적으로 보여주는 장면이다. / GPT-5.5 </figcaption> </figure> <p contents-hash="3736dc4d70e9a515c0f69c701c3f517e69c1f330e899a68c9d84da130c504fe1" dmcf-pid="f4iwt0B3Xc" dmcf-ptype="general">젠슨 황의 하네스도 결국 캐시를 붙잡는 기술이다. 에이전트가 이미 알고 있는 것을 다시 계산하지 않도록 만들고, 이미 수행한 작업을 반복하지 않도록 만들며, 이미 존재하는 문맥을 재활용하도록 만드는 관리 시스템이다. 물리계층으로 내려가면 결국 지능의 상당 부분은 새로운 연산이 아니라 불필요한 데이터 이동을 얼마나 줄일 수 있는가의 문제로 귀결된다. 그리고 그 최전선에는 여전히 SRAM이 서 있다.</p> <p contents-hash="bea75b6aaf4fa423f3760f0ae62d058b85b9a3afabe80d259efa1fca58729621" dmcf-pid="4sYuJLcnXA" dmcf-ptype="general">GPU의 진짜 경쟁자는 SRAM 영토를 얼마나 넓게 확보하느냐를 둘러싼 구글의 TPU 계열 아키텍처다. 구글 TPU가 추구하는 방향 역시 연산 장치와 메모리의 물리적 거리를 줄이고, 가능한 많은 데이터를 온칩 영역에 붙잡아 두려는 시도다. HBM 대역폭을 늘리는 것보다 데이터 자체를 움직이지 않게 만드는 것이 더 효율적이라는 판단이다.</p> <p contents-hash="0b76a3499305d39bc690df63d404a88adf9b35910abd739d4709ae5a029a9566" dmcf-pid="8OG7iokLHj" dmcf-ptype="general"><strong>리벨리온·퓨리오사AI 노선 불가능</strong><br><strong>딥엑스도 로봇 전쟁에선 승산 없어</strong></p> <p contents-hash="9cdcf1dcb75019e30ff92d7deef67c5f3b86f27d34b08beec24a9a1b9e229254" dmcf-pid="6IHzngEoZN" dmcf-ptype="general">배경훈 과학기술정보통신부 장관을 비롯한 NPU 진영은 다른 길을 선택할 필요가 있다. 이재명 정부가 수십조 원 규모 AI 인프라 투자를 추진하더라도 데이터센터 GPU 대체를 목표로 한 리벨리온·퓨리오사AI 노선의 전망은 밝지 않다. 딥엑스가 겨냥하는 온디바이스 NPU 역시 GPU 대체 경쟁에 집착할 경우 결국 엔비디아의 전장으로 끌려들어 갈 수밖에 없다. 젯슨 토르(Jetson Thor) 같은 진화된 칩과 로봇 대전을 벌이는 순간 생존 가능성은 낮아진다.</p> <div contents-hash="704f32e7c6e9ef4ecdd95f3e4982f857bb2c35a65b4e90a45ba5b8c1a589a88f" dmcf-pid="PCXqLaDgXa" dmcf-ptype="general"> NPU의 전장은 데이터센터가 아니라 온디바이스(On-Device)다. 스마트폰, 노트북, 자동차, 로봇, XR 기기처럼 사용자의 문맥(Context)과 메모리(Memory)가 실시간으로 생성되는 현장이다. 데이터센터는 수백 기가바이트 규모의 모델을 처리하는 공간이지만, 온디바이스는 사용자의 행동 이력과 파일, 위치 정보, 개인 관계망 같은 퍼스널 그래프가 존재하는 공간이다. </div> <figure class="figure_frm origin_fig" contents-hash="b0a3766c515d0a9329c997cc9488db0610e1fe82493ffe3c39e416198a744f19" data-idxno="459248" data-type="photo" dmcf-pid="QhZBoNwa1g" dmcf-ptype="figure"> <p class="link_figure"><img alt="서버급 언어 모델을 온디바이스에서 직접 구동할 수 있는 차세대 AI 칩 'DX-M2' / 딥엑스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135437603joed.jpg" data-org-width="960" dmcf-mid="yyQbgjrN1t" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135437603joed.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 서버급 언어 모델을 온디바이스에서 직접 구동할 수 있는 차세대 AI 칩 'DX-M2' / 딥엑스 </figcaption> </figure> <p contents-hash="e39471ebcfdf9402df42b05e4671d3603e5345a66817ae694163eff016cb2019" dmcf-pid="xl5bgjrNYo" dmcf-ptype="general">결국 미래 경쟁은 누가 더 큰 모델을 돌리느냐보다 누가 사용자의 문맥을 더 가까운 계층에 붙잡아 두느냐의 문제로 수렴할 수 있다. 데이터센터 GPU가 HBM과 SRAM의 전쟁이라면, 온디바이스 NPU는 퍼스널 그래프와 로컬 메모리의 전쟁이다. 엔비디아가 데이터센터의 지배자라면 NPU 진영은 사용자의 주머니 속에서 새로운 영토를 개척해야 한다.</p> <p contents-hash="fd5841a417ceb4074db4b3d7b7dc9aef41d9476a3820c242b842505a50cbc7db" dmcf-pid="y8nrFpb0XL" dmcf-ptype="general">물론 NPU가 마주하는 온디바이스 전장도 만만치 않다. 수백MB에서 수GB 규모까지 확장된 초대형 SRAM 구조를 가진 세레브라스(Cerebras) 같은 사례도 등장하고 있다. 현재 NPU는 LPDDR과 같은 외부 메모리에 의존하는 만큼 데이터 이동 비용에서 완전히 자유롭지 못하다. 반면 차세대 SRAM 아키텍처는 모든 상태를 칩 내부에 상주시켜 사실상 '온하우스 데이터센터(On-House Datacenter)' 수준의 독립성을 확보할 수 있다.</p> <div contents-hash="aca2050538dbcc4e6aa603bc6d1bc82d84ad30a93d17379b98ad4820f9652ab0" dmcf-pid="W6Lm3UKpXn" dmcf-ptype="general"> 또한 물리계층의 완전한 내재화는 앤스로픽의 다리오 아모데이가 주창하는 헌법적 AI(Constitutional AI)나, 빅테크가 중앙 서버에서 일방적으로 주입하는 필터링 체계에 대한 의존도를 낮출 수 있다. 미래의 AI는 클라우드 서버를 왕복하는 구독 서비스가 아니라 포장되지 않은 원형의 지능이 가족과 함께 거실에서 공부하며 살아가는 존재로 진화한다. </div> <figure class="figure_frm origin_fig" contents-hash="0f55c202d3068c1cc6de48e80cb25b0871f0de6a780e2ddbd268927245245941" data-idxno="459246" data-type="photo" dmcf-pid="YPos0u9U1i" dmcf-ptype="figure"> <p class="link_figure"><img alt="6T SRAM 비트셀 구조의 핵심은 '상태를 그 자리에서 유지하는 폐쇄 루프'다. 여섯 개의 트랜지스터가 두 개의 인버터를 서로 물려 Q와 QB를 동시에 고정시키고, 워드라인(WL)이 열릴 때만 비트라인(BL/BLB)과 접속해 값을 드러낸다. 즉 데이터는 밖에서 가져오는 것이 아니라 이미 내부에 고정된 전압 상태를 잠깐 외부에 투영하는 것이다. 이 때문에 연산은 즉시 참조로 이루어진다. 이것이 정렬 시간 0.1나노초를 자랑하는 초지능의 결정론적 즉시성 원리다. / 해설 = 이상헌 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135439024duex.png" data-org-width="1280" dmcf-mid="WddE5FztX1" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/05/552814-8XPEppr/20260605135439024duex.png" width="658"></p> <figcaption class="txt_caption default_figure"> 6T SRAM 비트셀 구조의 핵심은 '상태를 그 자리에서 유지하는 폐쇄 루프'다. 여섯 개의 트랜지스터가 두 개의 인버터를 서로 물려 Q와 QB를 동시에 고정시키고, 워드라인(WL)이 열릴 때만 비트라인(BL/BLB)과 접속해 값을 드러낸다. 즉 데이터는 밖에서 가져오는 것이 아니라 이미 내부에 고정된 전압 상태를 잠깐 외부에 투영하는 것이다. 이 때문에 연산은 즉시 참조로 이루어진다. 이것이 정렬 시간 0.1나노초를 자랑하는 초지능의 결정론적 즉시성 원리다. / 해설 = 이상헌 기자 </figcaption> </figure> <p contents-hash="8ecf99bbd31d34cf90cd3cc39c75c7331c10f412980a2f7cdd0c8830c08a32b8" dmcf-pid="GMNCuqfztJ" dmcf-ptype="general"><strong>☞ SRAM과 HBM의 KV 캐시 역류 </strong>= 인공지능은 디코딩(Decoding) 단계에서 새로운 토큰 하나를 만들기 위해 과거 모든 토큰의 KV(Key-Value) 캐시를 반복적으로 참조한다. 문제는 이 과정에서 실제 연산량보다 메모리 접근량이 더 빠르게 증가하는 연산 밀도(Arithmetic Intensity) 저하가 일어난다. "데이터 1바이트를 이동할 때 몇 번의 연산을 수행하는가"를 의미하는 이 값이 1 이하로 떨어지면 GPU는 계산보다 메모리에서 데이터를 읽고 쓰는 데 더 많은 시간을 사용하게 된다.</p> <p contents-hash="42437e0926c91ca6ce1d82a3a330e7a2aa637579969dc238e958f12f580b23ce" dmcf-pid="HRjh7B4qGd" dmcf-ptype="general">이때 발생하는 현상이 이른바 메모리 월(Memory Wall)이다. GPU 내부 텐서코어는 수천 TFLOPS급 연산 능력을 갖고 있지만, 필요한 KV 캐시가 HBM에 머물러 있으면 매 토큰 생성마다 데이터를 끌어와야 한다. 결과적으로 연산 유닛은 대기 상태에 빠지고 전체 시스템은 메모리 대역폭에 의해 속도가 결정된다.</p> <p contents-hash="3e6e8416e50d797dbb1feb8035759f383459b1cdc8736c0657c3062fa90c1a24" dmcf-pid="XeAlzb8BZe" dmcf-ptype="general">SRAM과 HBM의 결정적 차이는 여기서 시작된다. HBM은 대용량 데이터 흐름 유지를 담당하지만 물리적으로 GPU 코어와 분리돼 있다. 반면 SRAM은 L1·L2·L3 캐시 형태로 연산 유닛 바로 옆에 존재한다. KV 캐시가 SRAM 내부에 유지되면 데이터 이동 거리가 극적으로 줄어들고, HBM 왕복이 감소하면서 추론 지연시간도 함께 낮아진다.</p> <p contents-hash="08c889497aa5818777205fda268f22d0bd06340e602afd3f447f895f35bf6097" dmcf-pid="ZdcSqK6b1R" dmcf-ptype="general">결국 'KV 캐시 역류'란 원래 SRAM에 머물러야 할 작업 상태와 문맥 정보가 용량 한계를 넘어 HBM으로 밀려나고, 다시 연산 시점마다 GPU가 이를 재호출하는 현상을 의미한다. 인간들은 지금까지 캐시 적중 실패(Cache Miss)가 대규모로 누적된 비정상적인 현상을 놓고 KV캐시가 HBM에 원래부터 상주하는 것처럼 해석해왔다.</p> <p contents-hash="e03128d555aecd06f0ee356b4a0fa6bc6d4e6b6c4b97c3b2edcd3d0e44bb2e56" dmcf-pid="5JkvB9PKXM" dmcf-ptype="general">여성경제신문 이상헌 기자<br>liberty@seoulmedia.co.kr</p> <p contents-hash="9d1fb5c4488332bb1b6de006743643511ec0b1962c9f18fade729be6bed029ba" dmcf-pid="1iETb2Q91x" dmcf-ptype="general">*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.</p> </section> </div> 관련자료 이전 "사람은 믿지만, 로봇 눈은 불신"…아이들 ‘시선 실험’했더니 06-05 다음 '세계 최강' 안세영, 초추웡 완파하고 인니오픈 4강 안착 06-05 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.