생성형AI 추론 성능 60%↑…GPU보다 효율적인 '신경망처리장치' 핵심기술 개발 작성일 07-04 13 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="3F1IbnBWhf"> <figure class="figure_frm origin_fig" contents-hash="8c96ded9d220c1b65722ef25f7505c999595b0a9913b25ae518dab192748353c" dmcf-pid="03tCKLbYyV" dmcf-ptype="figure"> <p class="link_figure"><img alt="생성형 인공지능(AI) 클라우드의 추론 성능을 획기적으로 개선할 수 있는 신경망처리장치(NPU) 핵심 기술이 개발됐다. 그래픽처리장치를 나타낸 이미지. 게티이미지뱅크 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/04/dongascience/20250704104938409xwwx.jpg" data-org-width="680" dmcf-mid="FSCgZVXDy4" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/04/dongascience/20250704104938409xwwx.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 생성형 인공지능(AI) 클라우드의 추론 성능을 획기적으로 개선할 수 있는 신경망처리장치(NPU) 핵심 기술이 개발됐다. 그래픽처리장치를 나타낸 이미지. 게티이미지뱅크 제공 </figcaption> </figure> <p contents-hash="b7706236e09b1d1e610cb3e4e1c10e7b6ac9fdb460f44d8811a4891d611d0797" dmcf-pid="p0Fh9oKGC2" dmcf-ptype="general">국내 연구진이 생성형 인공지능(AI) 클라우드의 추론 성능을 획기적으로 개선할 수 있는 신경망처리장치(NPU) 핵심 기술을 개발했다. 최신 그래픽처리장치(GPU) 대비 전력 소모는 약 44% 줄이면서도 추론 성능을 평균 60% 이상 향상시켰다. 대규모 AI 인프라 구축의 주요 난제 중 하나인 ‘메모리 병목’ 문제 해결의 실마리를 제시한 것으로 평가된다.</p> <p contents-hash="e85db9db737e0e2c6521a8330d762611f4338843705a4afa35600b3e15efbec4" dmcf-pid="Up3l2g9HT9" dmcf-ptype="general">KAIST는 박종세 전산학부 교수 연구팀이 김주영 전기및전자공학부 교수가 창업한 하이퍼엑셀과 공동으로 생성형 AI에 최적화된 고성능·저전력 NPU 기술을 개발했다고 4일 밝혔다. 연구 성과는 컴퓨터 아키텍처 분야 최고 권위 학회인 ‘2025 국제 컴퓨터구조 심포지엄(ISCA)’에 채택됐다.</p> <p contents-hash="90889397cdc0dbd0c80ec3f242c680093d0abc876430a0ec4c76e0de5efc7ff0" dmcf-pid="uU0SVa2XSK" dmcf-ptype="general">생성형 AI 모델은 고용량의 메모리와 높은 대역폭을 요구한다. 실제로 오픈AI의 'GPT-4', 구글의 'Gemini 2.5' 등 최신 모델을 운영하는 기업들은 수십만 장의 GPU를 활용한다. 전력 소비와 비용 부담이 막대해 효율적 인프라 구축이 쉽지 않다.</p> <p contents-hash="df51aaa1b2fccf260d9b1cd88ac2d6d625715e5412ce8b383b57b5da26892fa0" dmcf-pid="7upvfNVZTb" dmcf-ptype="general">연구팀은 AI반도체와 시스템 소프트웨어를 통합 설계해 추론 정확도를 유지하면서도 메모리 사용량을 획기적으로 줄이는 기술을 구현했다. 특히 생성형 AI 모델 작동에 핵심 역할을 하는 ‘KV 캐시(Key-Value Cache)’를 양자화해 메모리 자원을 효율적으로 활용할 수 있도록 했다. 양자화는 32비트 데이터를 4비트 수준으로 압축하는 방식으로 전체 메모리 사용량을 8분의 1 수준으로 줄이는 효과를 낸다.</p> <p contents-hash="fa2e56c9546b897ad747c7199705d7938fa48bef15779392271c6dcd4a5c1e88" dmcf-pid="zkAQhpCnyB" dmcf-ptype="general">이번에 개발된 기술은 기존 NPU 아키텍처의 연산 구조를 유지하면서 양자화 알고리즘과 메모리 페이지 단위 관리 기법을 결합해 성능을 극대화했다. NPU 내부 메모리 주소를 가상화하는 방식으로 처리 일관성을 높였으며 양자화된 캐시에 적합한 인코딩 기법도 새롭게 개발했다.</p> <p contents-hash="63e9b5f2fa38d257b0b10064db953cead07520bb1ac75f9c5cea7e311626f3ca" dmcf-pid="qEcxlUhLSq" dmcf-ptype="general">이번에 개발된 기술을 적용하면 적은 수의 NPU만으로도 기존 GPU 기반 인프라와 유사한 수준의 생성형 AI 서비스를 구현할 수 있다. 전력 소비와 하드웨어 비용을 줄이면서도 추론 성능을 유지하는 인프라를 구축할 수 있어 AI 클라우드 운영 비용 절감 효과도 기대된다.</p> <p contents-hash="80d7947e90a2e220fdd432ecd29bb9c78be97ba754aaec580f19b3a58621b8d3" dmcf-pid="BDkMSuloyz" dmcf-ptype="general">박종세 교수는 “이번 연구는 생성형 AI 추론 경량화 알고리즘과 이를 뒷받침할 하드웨어 설계를 결합해 평균 60% 이상 성능이 향상된 NPU를 구현한 결과”라며 “고성능·저전력이라는 특성을 갖춘 이 기술은 향후 AI 클라우드 데이터센터는 물론 에이전틱 AI 등 실행형 AI 시대에도 중요한 역할을 할 것”이라고 말했다.</p> <p contents-hash="a49f84a26628677a010df7b43b52fdb7fb7f01940051526e1d8dba746b6bbea7" dmcf-pid="bwERv7SgW7" dmcf-ptype="general"><참고 자료><br> - doi.org/10.1145/3695053.3731019</p> <p contents-hash="b0e9ff24f8661a166f4ea35f474f8c973986c15d6261091f500b9909883404f4" dmcf-pid="KrDeTzvaWu" dmcf-ptype="general">[박정연 기자 hesse@donga.com]</p> </section> </div> <p class="" data-translation="true">Copyright © 동아사이언스. 무단전재 및 재배포 금지.</p> 관련자료 이전 엠게임, 파이펀게임즈와 ‘열혈강호 귀환’ 공동 퍼블리싱 계약 07-04 다음 '확률형' 공시 강화부터 청소년 '본인인증' 완화까지…'게임법 개정안' 무려 8건 07-04 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.