수능 수학에도 쩔쩔매는 K-모델…멀고먼 ‘AI 3강’ 작성일 12-15 17 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Pn7z6PHlyM"> <figure class="figure_frm origin_fig" contents-hash="dae1325b8a0e34772cfdb1470e360a389c4a5304d04e04cb1f53a82620ff7f24" dmcf-pid="QLzqPQXSWx" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/dt/20251215185448849bcyr.png" data-org-width="636" dmcf-mid="Hn0W0pwaTS" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/dt/20251215185448849bcyr.png" width="658"></p> </figure> <p contents-hash="b957a8dd17899949965b1b32cb3e3921bceb1ad43c9f13d22fe74ddf07d133e1" dmcf-pid="xoqBQxZvvQ" dmcf-ptype="general"><br> 올해 수능 수학 문제 풀이를 국내외 인공지능(AI) 모델에게 시켜 본 결과 글로벌 유명 모델들이 높은 점수를 받은 반면, 한국 모델들은 낙제점을 받았다는 분석 결과가 나왔다. 한국 독자 AI의 경쟁력이 글로벌 모델 뒤처져 있는게 아니냐는 우려가 나온다.</p> <p contents-hash="4c8bd5797e79f342793525178f765c6452e9e83dda6b6d2e2ce0d6cb775e10fd" dmcf-pid="ytDwTyiPvP" dmcf-ptype="general">김종락 서강대 수학과 교수 연구진은 15일 과학기술정보통신부 독자 AI 파운데이션 모델 도전 5개 팀의 주요 모델과 챗GPT 등 해외 5개 모델을 대상으로 수능 수학 문제 20개와 논술 문제 30개를 풀게 한 결과를 공개했다.</p> <p contents-hash="893ffac3df61bb4f94857d550853c572c9e85207deeeae7520d52b90da197ce7" dmcf-pid="WFwryWnQl6" dmcf-ptype="general">연구진이 쓴 국내 모델은 △업스테이지의 ‘솔라 프로-2’ △LG AI연구원의 ‘엑사원 4.0.1’ △네이버의 ‘HCX-007’ △SK텔레콤의 ‘A.X 4.0(72B)’ △NC AI 경량모델 ‘라마 바르코 8B 인스트럭트’다. 해외 모델은 오픈 AI의 ‘GPT-5.1’, 구글의 ‘제미나이 3 프로 프리뷰’, 앤스로픽의 ‘클로드 오푸스 4.5’, xAI의 ‘그록 4.1 패스트’, 딥시크 ‘V3.2’ 등을 활용했다.</p> <p contents-hash="ab45c6a9f289c67c5df0dd9b8afa0d6e54becd17288818338d5a0c3c962e0888" dmcf-pid="Y3rmWYLxT8" dmcf-ptype="general">발표된 결과에 따르면 해외 모델들은 76~92점을 기록한 반면, 국내 모델의 경우 58점을 받은 솔라 프로-2를 제외하면 대부분 20점 미만의 성적에 그쳤다. 연구진은 수능·기출(CSAT) 문제에서는 국내 모델 간 점수 차이가 크지 않았지만, 에이전틱 추론 문제에서는 상이한 양상을 보였다고 설명했다.</p> <p contents-hash="5e3badee28211d252bf29df7120dd04cad9a6d5086cbbcc2c83c668b857dd934" dmcf-pid="G0msYGoMS4" dmcf-ptype="general">연구진은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였음에도 이러한 결과가 나왔다고 부연했다.</p> <p contents-hash="a8801059121b7834e77dbd3adc9c101344c58e59ffac6bc8c81fc17ea18f402e" dmcf-pid="HP51BbhDWf" dmcf-ptype="general">김 교수는 “주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다”며 “국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다”고 설명했다.</p> <p contents-hash="bfa8f2de3d275dd016b122feaa5f020010b68095cac75f269210eb8c4571bdd9" dmcf-pid="XQ1tbKlwhV" dmcf-ptype="general">다만 업계 곳곳에서는 이번 테스트에 대한 반발도 나오고 있다. 비교 대상인 해외 모델과 국내 모델 간 크기 차이를 비롯해 테스트 의도와 기준 자체에 대한 문제 제기다.</p> <p contents-hash="713748b38b8cf250d7222ffe6c1da258369b1a4fc163cbbde01a95717db073d6" dmcf-pid="ZxtFK9Srv2" dmcf-ptype="general">업계에 따르면 이번 테스트에 활용된 국내 모델과 해외 모델은 학습 데이터 규모에서부터 큰 차이가 난다. 천문학적인 투자금이 투입된 해외 모델과의 비교에서 상대적으로 경량 모델이 불리할 수밖에 없다는 설명이다.</p> <p contents-hash="2eb1f967961b61afea330d8ad8e418b983af9696594efaec6b9efaf4e8c5d70c" dmcf-pid="5MF392vmh9" dmcf-ptype="general">또한 솔라 프로-2, 엑사원 4.0.1, HCX-007은 추론에 특화된 모델인 반면, SK텔레콤과 NC AI의 모델은 추론형 모델로 설계되지 않았다. 추론형 모델과 비(非)추론형 모델은 설계 단계부터 차이가 있어, 어떤 벤치마크를 적용하느냐에 따라 성능 격차가 발생할 수 있다는 분석이다. 업계에 따르면 수학 문제를 읽고 이해하는 부분과 이를 어떻게 풀지 설계하는 것으로 나눠 설계해야 한다. 이번 S.T.E.M 역량 평가에서 두 모델의 성적이 상대적으로 낮았던 이유로도 지목된다.</p> <p contents-hash="3b07f35ea2e0039236c3730167d98e9a0b935781d2c909a542d8eb9563bddf0f" dmcf-pid="1R302VTsWK" dmcf-ptype="general">특히 가장 낮은 점수를 받은 ‘라마 바르코 8B 인스트럭트’는 2년 전에 공개된 경량 모델인 데다, 자체 개발 모델이 아니라 메타의 ‘라마’를 튜닝해 만든 모델이다. 다른 국내 모델들이 지난 7월 공개된 것과 달리, NC AI가 최신 추론 모델을 오픈소스로 공개하지 않아 해당 모델이 활용된 것으로 풀이된다.</p> <p contents-hash="967ec03fd1d55424b56b41132f863c7476938a463e790c3a7f85b9884c15d3be" dmcf-pid="te0pVfyOSb" dmcf-ptype="general">연구진은 이번에 쓰인 국내 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다고 밝혔다.</p> <p contents-hash="7791dc9847bfb9a760244dc85c9682247286cb9c878db5076200216246c1fbb5" dmcf-pid="FdpUf4WIvB" dmcf-ptype="general">김 교수는 “엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설했으며 이를 국제적인 수준으로 키울 것”이라며 “자체 개발 문제 생성 알고리즘과 파이프라인을 개선해 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성해 도메인 특화 모델 성능 개선에 기여할 것”이라고 말했다.</p> <p contents-hash="ff7db7ac61afeefe3241784e7efede0166f4fecd0a8d2cd702a2b86f1e557e53" dmcf-pid="3JUu48YChq" dmcf-ptype="general">김영욱 기자 wook95@dt.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털타임스. 무단전재 및 재배포 금지.</p> 관련자료 이전 '암 투병' 이솔이, 연이은 건강 적신호…독감에 또 병원行 [RE:스타] 12-15 다음 FA 시장은 조용한데, 왜 한화만 계약이 안 풀릴까 12-15 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.