국내 AI에 '수능 수학' 풀게 했더니…대부분 20점대 작성일 12-15 20 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">국내 AI 5개팀·해외 AI 성능 비교<br>韓모델, 해외 AI와 비교해 성능 큰 격차</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="yap72KlwDR"> <p contents-hash="860cd52687ed01c6ebd34cd94188db3226e3a76dc7a9276b9d8ac18a5ee3177e" dmcf-pid="WNUzV9SrOM" dmcf-ptype="general"> [이데일리 채나연 기자] 국가대표 인공지능(AI)에 도전하는 국내 기존 대형언어 모델(LLM) 들이 수학 수능 및 논술 문제 풀이에서 해외 모델에 한참 못 미치는 성능을 내는 것으로 분석됐다.</p> <figure class="figure_frm origin_fig" contents-hash="720b2b0bf82686010c2a86ee0b44ca44125f854fe2b3944472aef506b351aa92" dmcf-pid="Yjuqf2vmOx" dmcf-ptype="figure"> <p class="link_figure"><img alt="기사 이해를 돕기 위한 사진. (사진=연합뉴스)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/Edaily/20251215144147609gzrd.jpg" data-org-width="670" dmcf-mid="0RDmShMVss" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/Edaily/20251215144147609gzrd.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 기사 이해를 돕기 위한 사진. (사진=연합뉴스) </figcaption> </figure> <div contents-hash="936807fbb1b72ca9cbc4caf153967bd1530f1de12a2c324839471ea6d083b20e" dmcf-pid="GA7B4VTsEQ" dmcf-ptype="general"> 15일 김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 한 결과를 발표했다. </div> <p contents-hash="da5e24ada31b86b410b9ca5a6162f44fbe041726013b4ca6776f54e956a2e261" dmcf-pid="Hczb8fyOsP" dmcf-ptype="general">앞서 연구팀은 수능 수학 문제로 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했다. </p> <p contents-hash="358d1854b1e4b55a27f4bff9713bed9a7784dcd959c408c02b4b194b8f6b38b7" dmcf-pid="XNUzV9SrI6" dmcf-ptype="general">논술 문제는 국내 10개 대학 기출 문제와 인도 대학 입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 10개 모델에 풀게 했다.</p> <p contents-hash="dc8bfc11304db0dd715da590f9247b500e320568a190f9aff98371581b927015" dmcf-pid="Zjuqf2vmr8" dmcf-ptype="general">한국 모델로는 업스테이지의 ‘솔라 프로-2’, LG AI연구원의 ‘엑사원 4.0.1’, 네이버의 ‘HCX-007’ SK텔레콤[017670]의 ‘A.X 4.0(72B)’ 엔씨소프트 경량모델 ‘라마 바르코 8B 인스트럭트’를 활용했다.</p> <p contents-hash="8143fc40f2d9d6cc046a401ad204bdf4170617c6547fd3e91f922b4ed7432c52" dmcf-pid="5A7B4VTsE4" dmcf-ptype="general">해외 모델에는 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 대상이었다.</p> <p contents-hash="b271904534a79f4e23d0da835d0cc5b97d7c3e085a8dfe6cd60835317386d342" dmcf-pid="1czb8fyOrf" dmcf-ptype="general">그 결과 해외 모델은 76~92점을 기록한 반면 한국 모델은 솔라 프로2만 58점을 받았을 뿐 나머지는 20점대 낮은 점수를 기록했다. 심지어 국내 모델인 라마 바르코 8B 인스트럭트는 2점을 받았다.</p> <p contents-hash="07c3ee5a04c9803b5fadcb3ab1eb7936f0dd1c0b9c0dfa34b754e2438f91f45e" dmcf-pid="tkqK64WImV" dmcf-ptype="general">연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였음에도 이런 결과가 나왔다고 설명했다.</p> <p contents-hash="b78fb0cde4c86613c1d977e0092f6f5cbc2a1ad1919151cde170880278efcdbb" dmcf-pid="FEB9P8YCw2" dmcf-ptype="general">이어 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 ‘엔트로피매스’(EntropyMath) 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했다.</p> <p contents-hash="6dacd0c35648fa59afecdc77e58f8daaa9865a91d06c7ed3a38ef56afe0120f3" dmcf-pid="3Db2Q6Ghr9" dmcf-ptype="general">여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮았다.</p> <p contents-hash="824a3ce327f4ce86744020cb6b27e66674d1c277c6fa0c3107009a517f7ec2d7" dmcf-pid="0wKVxPHlmK" dmcf-ptype="general">세 차례 문제 풀이를 시도해 정답을 맞히면 통과하는 방식을 활용했을 때 그록은 유일하게 만점을 받았으며 나머지 해외 모델은 90점을 기록했다. </p> <p contents-hash="51a33883032ef5e2cf9f3c4a199f9732aa059321ca59aa5141f8df24fc6658c5" dmcf-pid="pHiokAb0sb" dmcf-ptype="general">한국 모델은 솔라 프로-2가 70점, 엑사원이 60점을 기록했으며 나머지 국내 모델인 HCX-007은 40점, A.X 4.0은 30점, 라마 바르코 8B 인스트럭트는 20점을 기록했다.</p> <p contents-hash="a352bff610d7bf9d41c10b8d35a7fa0c1f3608bb177a1e82329c5650872b9c36" dmcf-pid="UXngEcKpOB" dmcf-ptype="general">김 교수는 “수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다”며 “국나 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다”고 말했다.</p> <p contents-hash="99e1ffd1d8b2da7bfe0e0b9bfbef36b56df70c0ad73b01cca6bfa1e44714235c" dmcf-pid="uZLaDk9Umq" dmcf-ptype="general">연구팀은 각 팀의 새로운 국가대표 AI 버전이 공개되면 자체 개발 문제를 활용해 성능을 재평가할 계획이다.</p> <p contents-hash="3f636dea8a80bff6dcfd070a6d0117459ecbe20532e44988081ea451b6985786" dmcf-pid="75oNwE2umz" dmcf-ptype="general">채나연 (chae@edaily.co.kr) </p> </section> </div> <p class="" data-translation="true">Copyright © 이데일리. 무단전재 및 재배포 금지.</p> 관련자료 이전 '갑상선 기능 항진증' 앓았던 솔지, 5일간 무대서 안 보여…동료들 쏟아진 인증샷 12-15 다음 대한체육회 2026년 예산 3451억원…올해보다 23.4% 증액 12-15 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.