'딥시크 이후' 또 흔드는 중국 AI…키미 K2 씽킹 성능은 작성일 11-17 38 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">다수 벤치마크서 챗GPT 5.0보다 높은 점수<br>낮은 훈련비 주장에도 데이터 공개 부족은 한계</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="0ooWimNd52"> <figure class="figure_frm origin_fig" contents-hash="610b8769eb0da229a244146e65382bb34d8df8c0e1193f28d87da4219785160c" dmcf-pid="pggYnsjJH9" dmcf-ptype="figure"> <p class="link_figure"><img alt="키미 홈페이지 [kimi.com 홈페이지 캡처]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/17/yonhap/20251117061451944wzpq.jpg" data-org-width="839" dmcf-mid="Fc5QHBFYtf" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/17/yonhap/20251117061451944wzpq.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 키미 홈페이지 [kimi.com 홈페이지 캡처] </figcaption> </figure> <p contents-hash="38483d45830e83bfb68c2f77a50de9a0d46f69fee82081214a1c4638dfe442ff" dmcf-pid="UaaGLOAitK" dmcf-ptype="general">(서울=연합뉴스) 나확진 기자 = 알리바바와 텐센트가 투자한 중국 인공지능(AI) 기업 문샷AI가 최근 내놓은 오픈소스 대형언어모델(LLM) '키미 K2 씽킹(Kimi-K2-Thinking)'이 글로벌 업계의 시선을 끌고 있다. </p> <p contents-hash="ccc2b7880deb2d4e7ce440f58621880005ad5c3cb598a70935439cf804a2c4f3" dmcf-pid="uNNHoIcnZb" dmcf-ptype="general">공개 직후 주요 국제 벤치마크에서 챗GPT 5.0과 앤트로픽의 '클로드 소네트 4.5'를 제친 결과가 잇달아 나오면서, 저비용·고효율 모델의 재부상을 알리는 것 아니냐는 분석도 나온다.</p> <p contents-hash="50af7261f99dd7b2015f316ffb42b7dd27c1f67fddfcfd02546068abd17cea88" dmcf-pid="7jjXgCkLXB" dmcf-ptype="general">'키미 K2 씽킹'이 주목받는 이유는 성능뿐만이 아니다. 모델 훈련비가 올해 초 '딥시크(V3)'를 공개하며 시장을 뒤흔든 중국 대표 LLM 딥시크보다도 낮은 것으로 알려지면서, 오픈소스 모델이 다시 프론티어 모델과 어깨를 나란히 할 수 있다는 기대감이 커지고 있다.</p> <p contents-hash="f85174268b3f63c06f02afbb7c4f9ed76ee1e6c83c250b0f741cf5a102707bcf" dmcf-pid="zAAZahEoGq" dmcf-ptype="general"><strong> 추론·검색에서 GPT5 앞서…벤치마크 수치로 드러난 성능</strong></p> <p contents-hash="480b66831f042bcba25d0bba8af3645ee55edef4807f5faf10510f76c645708e" dmcf-pid="qcc5NlDgHz" dmcf-ptype="general">문샷AI는 지난 6일 홈페이지를 통해 키미 K2 씽킹을 공식 공개했다. </p> <p contents-hash="a3a22acef1d2bfa8f94c0ceb7e60a4748dd05e8a2ebb5c64659ccc9f6f6895d4" dmcf-pid="BiiveDoM57" dmcf-ptype="general">지난 7월 '키미 K2'를 발표한 뒤 넉 달 만에 업그레이드 버전을 다시 내놓은 것으로, 문샷AI가 지난해부터 강조해온 '효율 최적화 모델' 전략이 본격적으로 속도를 내는 모습이다. </p> <p contents-hash="9382973934fdb584d18f6588a152e1529645749e1cadf29d891ca9bc0b21dc39" dmcf-pid="bnnTdwgR5u" dmcf-ptype="general">국내 이용자도 키미 사이트에 접속하면 곧바로 사용해볼 수 있다. 대화형 모델 기반이라 챗GPT와 사용 방식은 비슷하며 한국어 처리에서도 큰 불편은 없는 것으로 보인다.</p> <p contents-hash="48067ecc572c4dda6bfc251068781b6c84c7819914e7bfaee39b147c4d797f1a" dmcf-pid="KLLyJraeXU" dmcf-ptype="general">공개된 성능 지표를 보면 상승 폭은 더 눈에 띈다. </p> <p contents-hash="a0898c157679028db0dd5477923fcf56955076e4e9d271374658e8a4231a3ccf" dmcf-pid="9ooWimNdXp" dmcf-ptype="general">다양한 분야의 추론·창의적 사고 능력을 평가하는 HLE 테스트에서 '키미 K2 씽킹'은 '도구 사용 모드' 기준 44.9점을 기록했다. 같은 조건에서 챗GPT 5.0은 41.7점, 클로드 소네트 4.5는 32.0점, 딥시크 V3.2는 20.3점이었다.</p> <p contents-hash="86fcb59cd9355ada5947ad83ca89bfa0c34b2e3db0137093c0376a84ae918856" dmcf-pid="2ggYnsjJZ0" dmcf-ptype="general">웹 검색 능력을 평가하는 '브라우즈콤프'에서도 K2 씽킹은 60.2점으로 챗GPT 5.0(54.9점)과 클로드 소네트 4.5(24.1점)를 앞섰다. 최신 정보를 얼마나 잘 수집하는지를 평가하는 'Seal-0' 테스트에서도 두 모델보다 높은 점수를 기록했다고 문샷AI는 밝혔다.</p> <p contents-hash="8fd363e5448e442250797b31b6be3453ad40b0006afadc32fae44252bb98110a" dmcf-pid="VaaGLOAiX3" dmcf-ptype="general">다만 모든 영역에서 우위에 선 것은 아니다. </p> <p contents-hash="8b2e90d4e9e8f25a5bea3e807241151f404b62f692048d3b605e7b2bdbdd43b4" dmcf-pid="fNNHoIcnYF" dmcf-ptype="general">코딩 능력을 평가하는 SWE 벤치마크에서는 여전히 챗GPT 5.0과 클로드 소네트 4.5에 못 미치는 점수를 받았다. </p> <p contents-hash="cb6290c72589b861734b2969591149716f675c243a7115b4a349dd808fa3673e" dmcf-pid="4jjXgCkLGt" dmcf-ptype="general">기술 업계에서도 "추론과 검색에 최적화된 모델"이라는 평가와 함께 "범용성 면에서는 아직 판단을 더 유보해야 한다"는 신중론이 병존한다.</p> <figure class="figure_frm origin_fig" contents-hash="13809498c960137b8be8d7ed13203c3ec8f98b4b435e343122b435dd3a6041c5" dmcf-pid="8AAZahEo11" dmcf-ptype="figure"> <p class="link_figure"><img alt="문샷AI 홈페이지[홈페이지 캡처]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/17/yonhap/20251117061452110jxih.jpg" data-org-width="741" dmcf-mid="3egYnsjJtV" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/17/yonhap/20251117061452110jxih.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 문샷AI 홈페이지[홈페이지 캡처] </figcaption> </figure> <p contents-hash="a2f386d80b6aad9bc874613f70f764af1417b7ac726c5bb1c95bb3eeb3a5a4ce" dmcf-pid="688wVLQ9X5" dmcf-ptype="general"><strong> 성과 대비 비용 '주목'…실제 활용은 아직 미지수</strong></p> <p contents-hash="d101ddf60dc7d96132afbd7418ed045595e41e5cd2e91392d0ff880650fe201b" dmcf-pid="P66rfox2tZ" dmcf-ptype="general">문샷AI의 훈련비용도 화제를 모았다. </p> <p contents-hash="3207cb38bcfcabc478dc3d78dea010f180f78d1bc3f15f36a3d088dc2b743007" dmcf-pid="QPPm4gMVtX" dmcf-ptype="general">CNBC는 소식통을 인용해 키미 K2 씽킹의 훈련 비용이 460만 달러(약 67억 원) 수준이라고 전했다. 이는 수십억 달러 규모로 추정되는 오픈AI의 모델 훈련 비용은 물론 딥시크가 밝힌 560만 달러보다도 적은 금액이다. </p> <p contents-hash="da51b0ef5ddeedd537f2cba00191dcea1332dbf31f92df39257037fd3b8b0624" dmcf-pid="xQQs8aRfGH" dmcf-ptype="general">다만 전문가들은 "해당 비용이 전체 연구개발비인지 특정 학습 라운드 비용인지 명확하지 않다"며 "훈련비만 놓고 모델 효율성을 단정하기는 어렵다"고 지적한다.</p> <p contents-hash="002ad10c7394cc5ea600b9d95276d8c0c0ac247227fa16555f21ef12f67796cf" dmcf-pid="yTT9l3YCGG" dmcf-ptype="general">그럼에도 업계에서는 키미 K2 씽킹이 제시한 '성능 대비 효율'이라는 메시지에 주목하는 분위기다. </p> <p contents-hash="4285e0e60d64a41b4a56c5c678a4a0dc1961d5db14ad86ca27e4dcdf9bdf0ad5" dmcf-pid="Wyy2S0GhYY" dmcf-ptype="general">중국 AI의 약진이 다시 한번 확인됐다는 해석도 있다.</p> <p contents-hash="8c36e9c3e17c2c412625f05c3008b65cf8c27b5792a8c2c2a24082d72c43edaa" dmcf-pid="YWWVvpHlXW" dmcf-ptype="general">반면 일부에서는 "벤치마크 성능이 실제 사용자 만족도나 서비스 품질과 반드시 비례하는 것은 아니다"라며 "K2 씽킹이 글로벌 AI 지형을 바꿀 모델인지 판단하려면 시간이 더 필요하다"고 평가했다.</p> <p contents-hash="fb9bdacc50137e7206032121734d11748dd847ed15225c30d403048f98f0bc87" dmcf-pid="GYYfTUXS5y" dmcf-ptype="general">국내 전문가들은 키미 K2 씽킹이 보여준 벤치마크 결과는 주목할 필요가 있다고 밝혔다. </p> <p contents-hash="17e1fd68ebb3bded9a46814041085ff5c13c5dd7bea53a8c7e292840788b5482" dmcf-pid="HGG4yuZvGT" dmcf-ptype="general">김근교 NC AI 글로벌사업실장은 연합뉴스와 통화에서 "키미 K2 씽킹은 오픈소스 모델이라 자유롭게 내려받아 활용할 수 있는 모델임에도 공신력 있는 벤치마크 테스트에서도 폐쇄형 프론티어 모델들과 어깨를 나란히 하는 수준의 성능과 높은 효율성을 보여 업계에서도 주목받고 있다"고 말했다.</p> <p contents-hash="69673419fa74a98cfc497e725f72df5d1d6a9b4f325fced99503bf64bca8d49d" dmcf-pid="XddlMknQGv" dmcf-ptype="general">김 실장은 "추론이나 검색 능력에서 성능이 높고 그에 드는 비용이 아주 적다는 점에서 올해 초 딥시크 모델 공개와 비슷한 상황"이라며 "다만 딥시크 때 중국 AI에 대한 인식에 큰 충격이 있었기에 현재는 그 정도의 이슈화는 되지 않는 것 같다"고 덧붙였다.</p> <p contents-hash="f6d84afc28cb0d92d0452505bcebb8fced3cc65a5492bbf42b1e0d8f7bda95de" dmcf-pid="ZJJSRELxXS" dmcf-ptype="general">그러면서 "그동안 오픈AI나 구글 제미나이가 가장 앞서가고 중국 등 '오픈 소스' 진영이 따라가는 상황이었는데, 이제 곧 발표될 제미나이 새 버전 등에서 압도적 성능을 보여주지 못한다면 그동안 전개된 양상과는 다른 상황으로 흘러갈 수도 있다고 본다"고 말했다.</p> <p contents-hash="a738011f8240d20c1b72bbf48b1a306824c9176c1d88ca31d3001091b9c4ae16" dmcf-pid="5iiveDoMGl" dmcf-ptype="general">또 다른 국내 AI 업계 관계자도 "미국이 중국에 대해 GPU(그래픽 처리장치) 통제를 하는 상황에서 이 같은 성능이 나왔다는 건 엄청난 것"이라며 "우리 업계도 키미 K2 씽킹에 대해 연구해 볼 필요가 있다"고 말했다.</p> <p contents-hash="68120177398c14aef601eb8fbe3a87b99d0857eed78872f4e8290deac16da77a" dmcf-pid="1nnTdwgRGh" dmcf-ptype="general">다만, 아직 키미 K2 씽킹에 대해 어떤 판단을 내리기에는 이르다는 의견도 있다.</p> <p contents-hash="4148be1d04f1aa36a63d4fab7cefda5b0c56ce9ef2964c834214de3a33b3ff3f" dmcf-pid="tLLyJrae5C" dmcf-ptype="general">박찬준 숭실대 소프트웨어학부 교수는 "벤치마크 성능이 꼭 사용자들의 만족성과 사용성과 비례하진 않는다"라며 "공개된 내용만으로는 아직 AI 업계 지형을 바꿀 정도로 엄청난 효율이 있다고 단정하기는 좀 어려워 보인다"라고 말했다. </p> <p contents-hash="b2679731a538c90d8e6f70aac59536f23c98dbf3a8f8e4fee252373d06117722" dmcf-pid="FooWimNdZI" dmcf-ptype="general">rao@yna.co.kr</p> <p contents-hash="1971b5dc93d027e19e130812b2bd27567518c320067f63e6fdcc2989d5cf4377" dmcf-pid="0aaGLOAiHs" dmcf-ptype="general">▶제보는 카톡 okjebo</p> </section> </div> <p class="" data-translation="true">Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지</p> 관련자료 이전 125원짜리 동전주가 60만원 국민주로…역전 드라마는 계속된다 11-17 다음 ◇오늘의 경기(17일) 11-17 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.