‘KV 캐시’ 6분의 1로 압축…구글 터보퀀트에 반도체 시장 출렁 작성일 03-29 34 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">구글 리서치 공개 ‘터보퀀트’<br>KAIST 한인수 교수도 공동 참여<br>AI 한계 메모리 과부하 해결책 주목<br>공개 후 삼전·하이닉스 주가 급락<br>학계 “새로운 수요 확산” 반론도</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="qTXJzgB3WP"> <figure class="figure_frm origin_fig" contents-hash="e93aa1745b1ddae81abadf5636ab453bc1397a95953437ae851709fd9b85db6c" dmcf-pid="ByZiqab0S6" dmcf-ptype="figure"> <p class="link_figure"><img alt="사진=클립아트코리아" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202603/29/seouleconomy/20260329080132221ygsb.jpg" data-org-width="1200" dmcf-mid="zITQ3dpXSQ" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/29/seouleconomy/20260329080132221ygsb.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 사진=클립아트코리아 </figcaption> </figure> <p contents-hash="b7f8a99118eda59801f3bce40e7ce88fbe5eeff6a0cfc2d845547afc9d8601c1" dmcf-pid="bW5nBNKpl8" dmcf-ptype="general">구글 리서치가 최근 공개한 인공지능(AI) 메모리 최적화 기술 ‘터보퀀트(TurboQuant)’를 두고 전 세계 반도체 시장이 민감하게 반응하고 있다. 터보퀀트는 대형언어모델(LLM) 추론 과정에서 막대한 메모리를 차지하는 ‘KV 캐시’를 크게 압축해 비용을 낮추는 알고리즘으로, AI 서비스 확산의 걸림돌로 꼽혀 온 메모리 병목을 완화할 수 있다는 기대를 모은다. 다만 이 기술이 메모리 반도체 수요를 줄여 반도체 슈퍼사이클을 꺾는 변수로 작용할 수 있다는 우려도 함께 제기되면서 시장이 요동치고 있다.</p> <p contents-hash="591c3ef7286bf41ea0cbdd28042838e5373ad71635551140ec91f8478cd35c93" dmcf-pid="KY1Lbj9UC4" dmcf-ptype="general">구글은 지난 24일(현지시간) 터보퀀트를 공개했다. 이번 개발에는 구글 리서치 방문연구원으로 활동 중인 한인수 KAIST 전기및전자공학부 교수도 공동 연구자로 참여했다. 구글 리서치와 딥마인드, 뉴욕대 공동 연구팀이 개발한 터보퀀트는 AI 모델의 고질적 한계로 지적돼 온 메모리 과부하 문제를 해결할 차세대 양자화 알고리즘으로 주목받고 있다.</p> <p contents-hash="720ea772f2f019fea5ef1796c53b917fc269228434b40dc8c6003ce35e6cc128" dmcf-pid="9GtoKA2uSf" dmcf-ptype="general">KV 캐시는 챗GPT 같은 AI가 사용자와 주고받은 대화의 문맥을 기억해 두는 저장 공간이다. 입력이 길어질수록 저장해야 할 정보도 늘어나기 때문에 KV 캐시가 커질수록 메모리 사용량은 급증하고 추론 속도는 떨어진다. 터보퀀트는 이 공간을 기존의 최대 6분의 1 수준으로 줄이면서도 성능 저하는 거의 없도록 설계됐다. 쉽게 말해 AI가 기억해야 할 정보를 훨씬 작게 압축해 담으면서도 필요할 때는 빠르게 꺼내 쓸 수 있게 한 기술이다. 구글 측에 따르면 H100급 GPU 환경에서 연산 속도는 최대 8배 높일 수 있다.</p> <p contents-hash="636eada7ba7bae21517eaa6e6eafb34fa294f4f7332e5aaa9361faa4a8256a50" dmcf-pid="2tuc8rPKhV" dmcf-ptype="general">시장 충격은 즉각 나타났다. 터보퀀트 공개 후 삼성전자와 SK하이닉스를 비롯한 글로벌 반도체 종목이 흔들렸고, SK하이닉스 주가는 이틀간 급락했다. 메모리 사용량을 크게 줄일 수 있다면 결국 메모리 반도체 수요도 줄어드는 것 아니냐는 해석이 반영된 결과다. 매튜 프린스 클라우드플레어 최고경영자(CEO)가 자신의 X에 “이것은 구글의 딥시크”라고 평가한 것도 이런 충격을 키웠다.</p> <p contents-hash="f52af550fd920c4588a8292505e39de1a36edbc5ea56c915d45775708f94e4b8" dmcf-pid="VF7k6mQ9h2" dmcf-ptype="general">하지만 학계에서는 이런 해석이 성급하다는 반론도 나온다. 권석준 성균관대 반도체융합공학과·화학공학부 교수는 “구글의 터보퀀트는 메모리 수요를 파괴하는 기술이라기보다 메모리 산업의 게임 룰을 바꾸는 기술로 보는 게 타당하다”고 설명했다. 메모리를 덜 쓰게 되는 만큼 AI를 더 싸고 빠르게 돌릴 수 있게 되고, 그 결과 긴 프롬프트 처리나 다중 에이전트, 멀티모달 분석 같은 고비용 서비스가 확산하면서 오히려 새로운 수요가 생길 수 있다는 뜻이다.</p> <p contents-hash="47cdb808c25f9e9d3ff137deace6e7dc67d860f8aa41b0d90784ab9bd159297c" dmcf-pid="f3zEPsx2h9" dmcf-ptype="general">KAIST 역시 비슷한 해석을 내놨다. 고용량 중심에서 고효율 중심으로 반도체 수요 구조가 바뀌면서 AI는 더 저렴하고 빠르게 확산하고, 그에 따라 메모리 수요도 질적으로 고도화될 수 있다는 것이다. 특히 스마트폰과 가전 같은 온디바이스 AI부터 대규모 데이터센터까지 AI 적용 범위가 넓어질 경우 단기적인 수요 둔화를 넘어 더 큰 시장이 열릴 수 있다는 전망도 나온다.</p> <p contents-hash="dbe56eb5ad14eea6d1e7bae4db4491fe378f5b5c3630b4daa617e9340c466790" dmcf-pid="40qDQOMVTK" dmcf-ptype="general">이번 연구는 국내 연구진이 글로벌 빅테크의 핵심 AI 알고리즘 개발에 직접 기여했다는 점에서도 의미가 크다. 한 교수는 “AI 모델 성능이 커질수록 메모리 사용량이 급격히 늘어나는 것이 가장 큰 한계였는데, 이번 연구는 그 병목을 줄이면서도 정확도를 유지할 수 있는 새로운 방향을 제시했다”고 말했다. 결국 시장의 질문은 ‘메모리를 덜 쓰게 되느냐’가 아니라 ‘더 싸진 AI를 얼마나 더 많이 쓰게 되느냐’에 가까워지고 있다는 분석이다.</p> <p contents-hash="80e3a759d7330df8fba64dc99cb463348462c73c4e36303fe9f48189d62754ff" dmcf-pid="8pBwxIRfTb" dmcf-ptype="general">서지혜 기자 wise@sedaily.com</p> </section> </div> <p class="" data-translation="true">Copyright © 서울경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 쿠팡 사태로 '예스24' 랜섬웨어 뒷전...조사만 9개월째 03-29 다음 "검색의 종말? 천만에"…오히려 판 키운 생성형 AI 03-29 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.