中 '키미-K2' 도발에 美 최신모델 잇단출격…또 '딥시크 모먼트' 작성일 11-20 33 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">키미K2씽킹 주요벤치마크 1위 등극에 美빅테크 '이건 못참지'<br>GPT 5.1·그록4.1·제미나이3 쏟아져 격전…美中 격차는 축소</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="5grT9pOc5n"> <figure class="figure_frm origin_fig" contents-hash="4325cda87969600baba60b328e21e89722065072bd920fc60bb1e2727235b8ad" dmcf-pid="1amy2UIkGi" dmcf-ptype="figure"> <p class="link_figure"><img alt="키미-K2-씽킹'(Kimi-K2-Thinking)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/20/NEWS1/20251120070120217fcry.jpg" data-org-width="1320" dmcf-mid="4exX6Bvm5r" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/20/NEWS1/20251120070120217fcry.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 키미-K2-씽킹'(Kimi-K2-Thinking) </figcaption> </figure> <p contents-hash="7434d7f1309e16a30e468b77e664dd0cb36282de25ea4d71412fdb88543b1ea8" dmcf-pid="tNsWVuCEHJ" dmcf-ptype="general">(서울=뉴스1) 김민석 기자 = 중국 인공지능(AI) 스타트업 문샷AI가 최근 공개한 오픈소스 추론 LLM 모델 '키미-K2-씽킹'(Kimi-K2-Thinking)이 올해 초 '딥시크 모먼트'를 떠오르게 할 정도로 AI 성능 경쟁을 격화시키고 있다.</p> <p contents-hash="7bc49487f6fb9fb65ee6974f27ae7c45b6da7510c9d4abcf7bc5fb2325142f39" dmcf-pid="FjOYf7hDtd" dmcf-ptype="general">20일 IT 업계에 따르면 문샷AI는 이달 6일 키미 K2 씽킹을 공개하며 오픈AI의 'GPT-5'와 앤트로픽의 '클로드 소넷 4.5' 등 선두 모델을 여러 벤치마크에서 능가했다고 주장했다. </p> <p contents-hash="e77314e505bcbdcb2a9c3ebc14adca29fa1a3adf28f016df3b3dddbbe49a9383" dmcf-pid="3AIG4zlwXe" dmcf-ptype="general">실제로 출시 당시 키미 K2 씽킹은 특정 분야에서 인간 전문가의 수행능력과 얼마나 근접한지 평가하는 HLE(인간 수준 평가) 테스트서 44.9점을 받아 △오픈AI GPT-5(41.7점) △클로드 소넷 4.5(32점) △딥시크 V3.2(20.3점) 등보다 앞섰다.</p> <p contents-hash="e26a7ff35ba8d6a9414ae36b6bb15a1d3e42d894c98a1a5bb55aebdae407c90a" dmcf-pid="0cCH8qSrtR" dmcf-ptype="general">웹 검색 능력을 평가하는 '브라우즈콤프'서도 키미 K2 씽킹이 60.2점으로 △GPT-5(54.9점) △클로드 소넷 4.5(24.1점) △V3.2(40.1점)보다 점수가 높았다. 다만 코딩 능력을 평가하는 SWE 벤치마크에서는 GPT-5와 소넷 4.5에 미치지 못했다.</p> <p contents-hash="07e2cad017c962862514e93c550c620f9318fc3ba5b9528f02f46e7ce547978b" dmcf-pid="pkhX6BvmZM" dmcf-ptype="general">CNBC는 이 모델의 훈련 비용은 460만 달러(약 67억 원)에 불과했다고 추정하며 비용 효율성도 부각했다. 다만 문샷AI는 공식적인 수치가 아니라고 부인했다.</p> <figure class="figure_frm origin_fig" contents-hash="d5eeef6f1c7f9ba9ea07217a21177175b72bbf1ad6f775550ddcc56b94e0561d" dmcf-pid="UElZPbTsYx" dmcf-ptype="figure"> <p class="link_figure"><img alt="ⓒ News1 김지영 디자이너" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/20/NEWS1/20251120070121672namx.jpg" data-org-width="563" dmcf-mid="8vHoWORfZw" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/20/NEWS1/20251120070121672namx.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> ⓒ News1 김지영 디자이너 </figcaption> </figure> <p contents-hash="615c9fa2bac58929c3d6cc803cfeb5ad581480b5bbc2746b4e8accdf61e8584c" dmcf-pid="uDS5QKyOHQ" dmcf-ptype="general">업계에선 딥시크와 알리바바그룹의 '큐원(Qwen) 시리즈'에 이어 중국 AI 모델의 약진이 또 한번 확인됐다는 평가가 나왔다.</p> <p contents-hash="f8d0c04a28311188cafd9a32e252597a660cffee129eb646dbbe0164b81bf12d" dmcf-pid="7LDSb3mjYP" dmcf-ptype="general">오픈AI는 키미 K2 씽킹 출시 일주일만인 이달 13일 GPT-5의 업그레이드 버전인 'GPT-5.1'을 공개했다. 오픈AI는 GPT-5.1이 수학·코딩 벤치마크에서 유의미한 성능 향상을 확인했다고 설명했다.</p> <p contents-hash="834d9ccf2c2782168fa87a32171cca04eea80f1ca9b5bf571389387b2b1e42f6" dmcf-pid="zowvK0sA56" dmcf-ptype="general">오픈AI는 여러 이용자가 동시에 챗GPT와 대화하며 협업할 수 있는 '그룹 채팅' 기능을 한국·일본·대만·뉴질랜드 등 일부 국가에 시범도입했다.</p> <figure class="figure_frm origin_fig" contents-hash="fa4fcc9ecabc8b636ded2eb293e39e0b2cc28cd621d678a65316810c4f105a4e" dmcf-pid="qgrT9pOcX8" dmcf-ptype="figure"> <p class="link_figure"><img alt="그록 4.1(Grok 4.1)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/20/NEWS1/20251120070122945qvht.jpg" data-org-width="600" dmcf-mid="XpS5QKyO1o" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/20/NEWS1/20251120070122945qvht.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 그록 4.1(Grok 4.1) </figcaption> </figure> <p contents-hash="afb7c3e46a7fa7b3c0a4ba7f6bb0a09301dae1f321ce5d65af20b591042a5a6b" dmcf-pid="Bamy2UIk14" dmcf-ptype="general">일론 머스크의 xAI도 17일(현지시간) '그록 4.1'(Grok 4.1)을 공개하며 맞불을 놨다.</p> <p contents-hash="52fca21f48e21d37206742deae36ccfad41db29db201cbc09b603ed3c5f517c2" dmcf-pid="bNsWVuCEtf" dmcf-ptype="general">그록 4.1은 즉각적인 응답을 제공하는 '그록 4.1'(코드명:tensor)과 심층적 사고를 지원하는 '그록 4.1 씽킹'(quasarflux)으로 구성됐다. 두 모델은 여러 벤치마크에서 오픈AI·앤트로픽·구글 등 경쟁 모델들을 제치고 잠시 동안 1~2위권에 올랐다.</p> <figure class="figure_frm origin_fig" contents-hash="5f778d62e33a62307df4e4abd8fd794e17895f344c986d4bb96374e3ab8cdac7" dmcf-pid="KjOYf7hD1V" dmcf-ptype="figure"> <p class="link_figure"><img alt="FILE PHOTO: Illustration shows Gemini logo ⓒ 로이터=뉴스1" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/20/NEWS1/20251120070124571mxjn.jpg" data-org-width="1400" dmcf-mid="ZwbQsj2uHL" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/20/NEWS1/20251120070124571mxjn.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> FILE PHOTO: Illustration shows Gemini logo ⓒ 로이터=뉴스1 </figcaption> </figure> <p contents-hash="f8d2001676eb6ece13b23f8388aa5eb3e58c30f65368b8292d3a425f989eb5a4" dmcf-pid="9AIG4zlwG2" dmcf-ptype="general">그록 4.1 출시 직후 이번엔 구글이 차세대 AI 모델 '제미나이3'(Gemini3)를 출시하며 세계 최고 수준 성능의 모델이라고 강조했다. 제미나이3는 제미나이2.5 공개 이후 약 8개월 만에 선보인 최신 버전이다.</p> <p contents-hash="6ebfe6baa89386d424e209f5747da69a01e400452763b67b8b59bb68c1afa5e5" dmcf-pid="2cCH8qSrX9" dmcf-ptype="general">제미나이3는 인간 최후의 시험(Humanity's Last Exam·HLE) 벤치마크에서 37.4점을 기록했다. 이는 GPT-5.1과 클로드 소넷 4.5를 앞서는 수치다.</p> <p contents-hash="7c7dbf732a45388567aa5b01e5f9cf1e7562590de8c5568679eb49f1c745a7f0" dmcf-pid="VkhX6BvmXK" dmcf-ptype="general">구글은 연구용 확장 버전 '제미나이3 딥싱크'(DeepSync)'도 조만간 공개할 예정이다.</p> <p contents-hash="99e11317009fb393cf3a2dd6f32417ed7c67cfadf13ddade503b22e3654e58be" dmcf-pid="fElZPbTs5b" dmcf-ptype="general">미국 현지에선 제미나이3 출시에 그록 4.1은 출시하자마자 관심에서 멀어지는 상황에 놓였다는 평가가 나오고 있다.</p> <p contents-hash="13e8eb0ac27bafc0438650af380de09fed11af53add7ffe57bf923ffdbd06c96" dmcf-pid="4Qow3YNdZB" dmcf-ptype="general">한편 미·중 AI 모델 성능 격차는 실제로 빠르게 좁혀지고 있다. 스탠퍼드대 인간중심AI연구소(HAI) 보고서에 따르면 2024년 1월 중국과 미국 최상위 모델 간 성능 격차는 103점이었지만 올해 2월엔 23점으로 축소됐다. MMLU 벤치마크에서는 2023년 20%포인트 차이가 2024년 말 0.3%포인트로 급감했다.</p> <p contents-hash="dd8347996a64ac291df96846757e1080f8f1f1ee1123618e853a83387df1002a" dmcf-pid="8xgr0GjJ5q" dmcf-ptype="general">딥시크는 18일(현지시간) 학술전문지 네이처에 동료심사를 거친 논문을 통해 R1의 훈련 비용이 29만4000달러(약 4억 원)라고 처음 밝혔다. 오픈AI가 2023년 "1억 달러 이상"이라고 밝힌 기초 모델 훈련 비용과 비교하면 약 0.3%(300분의 1 수준)이다.</p> <p contents-hash="8e54a91f3bec703065d4151f79ecd1930071dd033dced19f74939d87a8068fe2" dmcf-pid="6MampHAiHz" dmcf-ptype="general">ideaed@news1.kr<br><br><strong><용어설명></strong><br><br>■ MMLU<br>MMLU-Pro는 대규모언어모델(LLM)의 성능을 평가하기 위해 개발된 최신 멀티태스크 언어 이해 벤치마크다. 기존 MMLU 대비 한층 더 어려운 추론 중심 문제와 현실적인 오답 선택지가 대폭 추가돼 모델의 진짜 지적 능력을 엄격하게 테스트한다.<br><br> </p> </section> </div> <p class="" data-translation="true">Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.</p> 관련자료 이전 "중국인 아닙니다" 쯔양, 한달 수익 입 열었다 "외제차 한대 정도"[SC리뷰] 11-20 다음 [단독] 반도체 인재 양성 위해 20억 내놓은 박경수 PSK 회장 “좋은 인재 있어야 기술 축적된다” 11-20 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.