[인터뷰] LLM 추론 특화 AI 반도체 설계 회사 하이퍼엑셀… 이진원 CTO “GPU 대신 비용 절감형 LPU로 승부”

작성일 04-04

<div id="layerTranslateNotice" style="display:none;"></div> 비싼 HBM 버리고 가성비 D램 채택 “LLM 추론 효율 엔비디아 압도할 것” 삼성 4나노로 ‘베르다’ 시제품 제작 네이버·LG와 손잡고 데이터센터·가전 정조준 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="HC0KBA2uSY">
 <blockquote class="quote_frm" contents-hash="b34a11b60c0ea70b19ca1ea32d54b77f308e4992e55339f754a63e090e3bed26" dmcf-pid="Xhp9bcV7CW" dmcf-ptype="blockquote1">
 “인공지능(AI) 서비스 이용료를 지금의 3만원대에서 5000원 수준으로 끌어내리는 것이 핵심 목표다.”
 </blockquote>
 이진원 하이퍼엑셀 최고기술책임자(CTO)는 지난달 11일 서울 서초동 본사에서 조선비즈와 만나 이 같은 청사진을 밝혔다. 엔비디아 그래픽처리장치(GPU)가 지배하는 현재 AI 인프라 구조를 통째로 대체할 순 없더라도, 대규모언어모델(LLM) 추론 특화 전용 반도체로 ‘가성비 경쟁’을 벌이겠다는 포부다.
 이 CTO는 삼성전자 시스템LSI 사업부의 시스템 반도체 설계 엔지니어 출신이다. 스마트폰의 ‘두뇌’ 역할을 하는 애플리케이션프로세서(AP)를 설계했다. 그는 2021년 AI 반도체 스타트업 뉴블라를 거쳐 2023년 설립된 하이퍼엑셀에 CTO로 합류했다. 현재 AI 반도체 아키텍처 개발을 총괄하고 있다.
 <figure class="figure_frm origin_fig" contents-hash="af9af31475e457608b61bb707643b5910c74bb5606fbb12149af315effcf008c" dmcf-pid="1KLEcFwaCv" dmcf-ptype="figure">
 <img alt="지난달 11일 서울 서초동 하이퍼엑셀 본사에서 만난 이진원 CTO가 회사의 청사진을 설명하고 있다./최효정 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/04/chosunbiz/20260404060224796umst.jpg" data-org-width="960" dmcf-mid="GUarDpsACG" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/04/chosunbiz/20260404060224796umst.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 지난달 11일 서울 서초동 하이퍼엑셀 본사에서 만난 이진원 CTO가 회사의 청사진을 설명하고 있다./최효정 기자
 </figcaption>
 </figure>
 하이퍼엑셀은 LLM 추론(결과 생성)에 특화된 AI 반도체 ‘베르다(Verda)’를 개발하는 토종 팹리스(반도체 설계) 스타트업이다. 삼성전자 파운드리 4나노 공정에서 생산되는 이 칩은 기존 GPU와 설계 철학부터 다르다. 핵심은 자체 아키텍처인 ‘LPU(Language Processing Unit)’와 비싼 고대역폭메모리(HBM) 대신 저렴한 저전력 D램(LPDDR5X)을 채택했다는 점이다.
 이 CTO는 현재 AI 반도체의 주요 병목을 ‘메모리 접근’으로 꼽았다. 그는 “연산 성능 자체가 부족해서 느려지는 것이 아니라, 메모리에서 데이터를 읽고 쓰는 과정이 너무 복잡해 정체가 발생한다”며 “GPU는 HBM에서 내부 S램으로 데이터를 옮겼다가 다시 연산기로 보내는 과정을 반복하는데, 이 과정에서 병목이 나타난다”고 설명했다.
 하이퍼엑셀은 이 구조를 완전히 바꿨다. 베르다는 중간 저장소(버퍼)를 최소화하고, 외부 메모리에서 연산 장치(LPU)로 데이터를 직접 쏘아주는 구조를 설계했다. 이 CTO는 “GPU의 메모리 대역폭 활용률이 대략 50% 수준인데, 우리는 이를 90% 수준까지 끌어올리는 것이 목표”라고 했다.
 이러한 구조 변화는 ‘비용’ 혁신으로 연결된다. 현재 AI 서비스를 운영하는 기업들에 가장 큰 부담은 장비 가격과 전력 요금을 합친 총소유비용(TCO)이다. 이 CTO는 “엔비디아 H100 GPU는 개당 7000만~8000만원에 육박하고, 서버 한 대를 구성하면 10억원을 넘는 경우가 적지 않다”며 “베르다는 LPDDR을 활용해 장비비와 전력 소모를 동시에 줄임으로써, GPU 대비 TCO를 3분의 1 수준까지 낮추는 것이 목표”라고 했다.
 하이퍼엑셀의 목표는 데이터센터에 머물지 않는다. 가전, 로봇 등 기기 자체에서 AI를 처리하는 ‘온디바이스 AI’ 시장도 정조준하고 있다. 현재 LG전자와 협력해 가전용 AI 가속기 개발을 진행 중이며, 전력 제약이 큰 환경에서 실시간 처리가 중요한 만큼 베르다의 고효율 아키텍처를 활용하려는 전략이다. 다만 이는 현재 PoC(기술 검증) 단계로, 향후 상용 제품 탑재를 위한 협력을 이어가고 있다.
 하이퍼엑셀은 베르다 양산 이후 본격적인 매출 발생을 기대하고 있다. 회사 측은 초기에는 데이터센터 고객사를 중심으로 공급을 확대하고, 이후 클라우드 사업자와 온디바이스 AI 시장까지 확장하는 것을 목표로 하고 있다. 다음은 이 CTO와의 일문일답.
 ―칩 개발은 어느 단계인가.
 “칩 설계는 완료됐으며, 이달 중 나올 예정이다. 실제 환경에서 성능과 신뢰성을 검증한 뒤, 올해 하반기 양산을 목표로 하고 있다.”
 ―LPU는 GPU와 어떤 점이 다른가.
 “GPU가 이것저것 다 잘하는 ‘범용 가속기’라면, LPU는 오직 LLM 추론 작업에만 모든 화력을 쏟아붓는 ‘특화 구조’다. 칩 구조 자체를 트랜스포머 모델의 데이터 흐름에 맞춰 최적화했다.”
 ―HBM 대신 LPDDR을 쓰면 속도가 느리지 않나.
 “단순 대역폭은 낮지만, 데이터 이동 경로를 최적화해 ‘실제 효율’을 높이는 것이 우리의 전략이다. 덕분에 같은 예산으로 더 많은 동시 사용자에게 서비스를 제공할 수 있다.”
 ―삼성전자 파운드리, 디자인하우스 등 국내 반도체 생태계와 협력하고 있는데.
 “AI 반도체는 설계만으로 되는 산업이 아니라 파운드리, 디자인하우스, 패키징, 서버로 이어지는 일종의 ‘종합 예술’이라고 생각한다. 이번 베르다 개발 과정에서도 삼성전자 파운드리와 협력하고 디자인하우스와 함께 설계 작업을 진행하고 있다. 국내에서도 이런 경험이 축적돼야 장기적으로 시스템 반도체 생태계가 선순환 구조를 만들 수 있다고 본다.”
 ―주요 고객은 어디인가.
 “데이터센터 사업자가 핵심이다. 네이버클라우드와는 이미 PoC를 진행 중이며, K-클라우드 사업과 연계해 사례를 확대할 계획이다. 특정 영역에서 확실한 가성비 경쟁력을 보여주겠다.”
 - Copyright ⓒ 조선비즈 &amp; Chosun.com -
 </section> 
 </div> 
 Copyright © 조선비즈. 무단전재 및 재배포 금지.

이전

비닐봉지 대신 수백억 화장실…54년 만에 가는 달 여행[유인 달 탐사①]

04-04
다음

‘무균 공정’ 새 격전지…라온로보틱스, 외산 장비에 도전장

04-04

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

[인터뷰] LLM 추론 특화 AI 반도체 설계 회사 하이퍼엑셀… 이진원 CTO “GPU 대신 비용 절감형 LPU로 승부”

멤버랭킹

관련자료

멤버랭킹