SKT, 국내 LLM 성능 벤치마크 플랫폼 평가서 3관왕

작성일 01-28

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">수학·코딩·토큰 효율성서 우수성 입증</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="66LO7471CK">
          <figure class="figure_frm origin_fig" contents-hash="52ea962d7e4131e890d2e68c5b737001b8d1d839c519743cb253ae715d322186" dmcf-pid="PorH6n6bhb" dmcf-ptype="figure">
           <p class="link_figure"><img alt="지난달 30일 서울 강남구 코엑스에서 열린 ‘독자 AI 파운데이션 모델 프로젝트 1차 발표회’에서 방문자가 SK텔레콤 A.X K1 모델을 사용하고 있다. 연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/28/dt/20260128170444733kjfo.jpg" data-org-width="640" dmcf-mid="8iimUVUZC9" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/28/dt/20260128170444733kjfo.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            지난달 30일 서울 강남구 코엑스에서 열린 ‘독자 AI 파운데이션 모델 프로젝트 1차 발표회’에서 방문자가 SK텔레콤 A.X K1 모델을 사용하고 있다. 연합뉴스
           </figcaption>
          </figure>
          <p contents-hash="73ee2d1ce20cd83ef4f27a377e47530c9aadd602b3488ec86471cefcee412d5c" dmcf-pid="QgmXPLPKlB" dmcf-ptype="general"><br> SK텔레콤이 국내 대형언어모델(LLM) 성능 벤치마크 플랫폼 ‘호랑이 리더보드’의 최신 분석에서 우수한 성능을 인정받았다.</p>
          <p contents-hash="d46f93fa5d0ed5e12169153319f70bf32c983d29c47bcbc436013057daf702ec" dmcf-pid="xasZQoQ9Sq" dmcf-ptype="general">웨이트앤바이어스(W&amp;B)는 지난 27일 ‘독자 인공지능(AI) 파운데이션 모델 프로젝트’ 1차 평가 대상 5개 모델의 성능을 상세 분석해 공개했다. W&amp;B는 세계 각국의 고객사에 머신러닝 개발 플랫폼을 제공하는 회사로, 한국 시장에서 LLM의 언어 이해와 생성 능력을 평가하기 위한 벤치마크 ‘호랑이 LLM 리더보드’를 운영하고 있다.</p>
          <p contents-hash="5e7ff6283d45e3b9833881696ad6873b8aa5137c234faa925168042fc7497b95" dmcf-pid="y39iTtTsWz" dmcf-ptype="general">SK텔레콤의 초거대 AI 모델 ‘A.X K1’은 종합 성능 지표에서 0.649점을 받아 LG AI연구소의 K-엑사원(0.676)에 이어 2위를 차지했다. 네이버클라우드의 하이퍼클로바X 33B(0.633), 업스테이지의 솔라 오픈 100B(0.621), NC AI의 배키(0.599) 순이었다.</p>
          <p contents-hash="4aad75c3046b1ed0baf03fd90f401d7d66a63a8020d2763daed4dedb926cad88" dmcf-pid="W02nyFyOl7" dmcf-ptype="general">일반적 지식, 수학적 추론, 코딩 능력 등 3개 영역에서는 5팀 중 1위를 기록했다. 수학적 추론(0.96)과 코딩 능력(0.48)에서 각각 1위를 차지하며 기술 우수성을 증명했다. 특히 한국어 수학 벤치마크를 평가하는 ko_aime2025에서는 만점(1.0)을 받았다.</p>
          <p contents-hash="d9523e9210a0311c5ad6f1affdf90be30e6c01803c330e778e2fdc5aea4d9e4b" dmcf-pid="YpVLW3WISu" dmcf-ptype="general">호랑이 리더보드 측은 “거대 모델 특유의 깊이 있는 사고 능력을 입증했다”며 “매개변수 5190억개의 거대 규모임에도 불구하고 최적화된 추론 설계로 토큰 효율성 1위를 기록했다”고 평가했다.</p>
          <p contents-hash="ec3d010d6a380ddb6fabd56917a6bf6bab63e6bdbae25d29a3c1743957f469ed" dmcf-pid="GUfoY0YCTU" dmcf-ptype="general">이혜선 기자 hslee@dt.co.kr</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 디지털타임스. 무단전재 및 재배포 금지.</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

SKT, 국내 LLM 성능 벤치마크 플랫폼 평가서 3관왕

멤버랭킹

관련자료

멤버랭킹