KT ‘믿:음 K’, 에이전틱 AI 벤치마크 87%…국내 중소형 모델 1위

작성일 01-05

<div id="layerTranslateNotice" style="display:none;"></div> 글로벌 AI 성능 평가 플랫폼 AAII에 등재, 국내 중소형 모델 중 최고점 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="tVH3OGDgZr">
 <figure class="figure_frm origin_fig" contents-hash="018393a892c109ed5842ab90c5b377d989fdf26212a8e75b79037d0a512127c5" dmcf-pid="FfX0IHwaHw" dmcf-ptype="figure">
 <img alt="AAII(Artificial Analysis Intelligence Index)’에 등재된 믿:음 KⓒKT" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/05/dailian/20260105091843993mpjf.png" data-org-width="637" dmcf-mid="1wQiqPpXZm" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/05/dailian/20260105091843993mpjf.png" width="658">
 <figcaption class="txt_caption default_figure">
 AAII(Artificial Analysis Intelligence Index)’에 등재된 믿:음 KⓒKT
 </figcaption>
 </figure>
 KT는 자체 개발한 초거대 AI 모델 ‘믿:음 K’가 글로벌 AI 모델 성능을 종합 평가하는 플랫폼 ‘AAII(Artificial Analysis Intelligence Index)’에서 국내 중소형 모델 중 1위를 달성했다고 5일 밝혔다.
 AAII는 AI 평가 전문 기관인 Artificial Analysis가 운영하는 글로벌 평가 플랫폼으로, 전 세계 주요 AI 모델의 성능을 단일 시험이 아닌 다수의 공개 벤치마크 결과를 종합해 사용자에게 객관적이고 신뢰성 있는 AI 모델 정보를 제공한다.
 국내 주요 AI 모델인 LG 엑사원(Exaone), 네이버 하이퍼클로바, 업스테이지 솔라(Solar), 모티프(Motif) 등도 함께 등재됐다.
 이번 평가에서 ‘믿:음 K’는 추론, 전문 지식, 수학·프로그래밍, 에이전트 수행 능력 등 10여 개 핵심 평가 항목에서 전반적으로 우수한 점수를 기록했다.
 에이전틱 AI 특화 지표 τ²-bench에서 톱티어… “실전형 AI” 입증
 이번 AAII 공개 결과에서 KT의 ‘믿:음 K’는 주요 에이전트 성능 벤치마크 중 하나인 ‘τ²-bench(타우 스퀘어 벤치)’에서 87%를 기록하며 에이전틱 에이아이(Agentic AI) 분야 우수 모델로 이름을 올렸다.
 τ²-bench는 AI가 실제 업무 환경에서 사람과 협업하며 여러 도구를 활용해 과업을 끝까지 수행할 수 있는지를 평가하는 에이전트 특화 벤치마크다. ‘믿:음 K’가 기록한 수치는 최정상 수준이라고 회사측은 강조했다.
 최근 AI 시장은 단순 대화형 AI를 넘어 업무를 대신 처리하는 AI 에이전트 시대로 빠르게 전환되고 있다.
 ‘믿:음 K’는 기업 내부 업무 자동화, 문서 분석 및 작성, 소프트웨어 개발, 서버 관리 등 실무 중심 영역에서 인간의 개입을 최소화하고 자율적으로 과업을 수행함으로써, 기업들이 실제로 비즈니스 현장에 즉시 투입해 성과를 낼 수 있는 ‘실전형 AI’로서의 가치를 인정받았다는 점에서 큰 의미가 있다는 설명이다.
 범용 지능과 효율성 겸비한 “가장 한국적인 AI 모델”
 ‘믿:음 K’는 에이전틱 지표 외에도 전문 지식과 고난도 추론 능력을 평가하는 MMLU Pro, GPQA, HLE 등 주요 벤치마크에서도 우수한 성적을 거뒀다. 한국어 이해 성능 지표에서는 국내 최고 수준을 달성했다.
 이러한 성과는 매개변수 40B이하급 모델에서 구현됐다는 점에서 주목 받고 있다. 대규모 GPU 인프라 부담을 줄여 효율성을 높이면서도, 사용자의 복잡한 지시를 정확히 이해하는 ‘지시 이행 능력(Instruction Following)’과 한국 고유의 문맥 및 사회적 맥락을 이해하는 ‘한국 특화 성능’까지 갖춰서다.
 KT는 모델 아키텍처 설계부터 학습 데이터의 구축까지 전 과정을 직접 수행하는 ‘프롬 스크래치(From scratch)’ 방식을 통해 ‘믿:음 K’를 구현했다. 실제로 ‘믿:음 K’는 보고서 작성, 문서 요약, 데이터 분석, 고객 응대 등 실무 현장에서 즉시 활용 가능한 다양한 시나리오에 대응할 수 있도록 설계됐다.
 이는 KT가 초기 개발 단계부터 철저히 B2B 시장을 정조준하며 모델 개발을 추진한 결과다.
 KT는 고품질 데이터 확보를 위해 국내외 주요 데이터 보유 기관들과 ‘데이터 얼라이언스’를 결성하고, 저작권이 확보된 깨끗하고 정교한 고품질 데이터를 학습에 활용했다.
 또 주요 B2B 고객사들과 긴밀히 협력하며 현장에서 실제로 작동하는 모델을 만들기 위해 노력해 왔다.
 KT는 이를 계기로 ‘믿:음 K’를 국내 B2B 시장에 최적화된 에이전틱 AI 모델로 본격 확산할 계획이다. 금융·공공·제조 등 산업별로 기업의 실제 업무를 자동화하고 스스로 판단해 처리하는 맞춤형 AI 에이전트를 제공해, 기업 고객의 AI 전환(AX)을 선도하겠다는 전략이다.
 오승필 KT 기술혁신부문장 부사장은 “이번 AAII 등재는 KT의 자체 AI 기술력이 글로벌 기준에 도달했음을 객관적으로 입증한 성과”라며 “에이전틱 AI를 통해 한국 기업들의 업무 혁신과 디지털 전환을 이끄는 최고의 AI 파트너가 되겠다”고 말했다.
 </section> 
 </div> 
 Copyright © 데일리안. 무단전재 및 재배포 금지.

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

KT ‘믿:음 K’, 에이전틱 AI 벤치마크 87%…국내 중소형 모델 1위

멤버랭킹

관련자료

멤버랭킹