챗GPT·제미나이의 '높은 벽'… 국산 AI로 수능 수학 풀면 낙방 작성일 12-15 19 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">서강대 김종락 교수팀, 해외 AI 모델과 한국 모델 수능 수학 테스트… 정답률 큰 차이</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="bL0c7pwa5I"> <figure class="figure_frm origin_fig" contents-hash="11d22fb59e35da18940e3ab5c1e94bb2437a2b19bda8fec802b282d20e7fb12b" dmcf-pid="KauDB7sAXO" dmcf-ptype="figure"> <p class="link_figure"><img alt="오픈AI 챗GPT 이미지. /사진=로이터" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/moneyweek/20251215112546061hokw.jpg" data-org-width="596" dmcf-mid="B2O4lIQ91C" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/moneyweek/20251215112546061hokw.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 오픈AI 챗GPT 이미지. /사진=로이터 </figcaption> </figure> <div contents-hash="7abd4149e4a6ad7cc0eefe9c2082c194664f89d9f2c67746ef5c196a0ddd8a02" dmcf-pid="9N7wbzOcts" dmcf-ptype="general"> 한국 대표 거대언어모델(LMM)들이 해외 모델들과 비교해 수학 수능·논술 문제 풀이에서 성능이 뒤지는 것으로 나왔다. </div> <p contents-hash="3d52760c95587d23cc8c554d4cb3ca6c2077952acc5b4b67ccc5e32079317909" dmcf-pid="2jzrKqIkZm" dmcf-ptype="general">김종락 서강대 수학과 교수 연구팀은 국내 대표 AI 도전 5개 팀의 LLM 모델과 챗GPT·제미나이 등 5개 모델을 대상으로 수능 수학 20문제·논술 30문제를 풀게 한 결과를 공개했다.</p> <p contents-hash="8a53e882af945640145a2aa4af0d66f208af59882fc84e18c8ce579e6385e20b" dmcf-pid="VAqm9BCE1r" dmcf-ptype="general">연구팀은 수능 수학의 ▲공통과목 ▲확률과 통계 ▲미적분 ▲기하 영역에서 가장 어려운 5문항씩 총 20문제, 서울 주요대학 10곳의 논술 기출문제와 인도 대학 입시, 일본 도쿄대 공대 대학원 입시문제 각 10문항씩 총 30문제를 선정해 평가를 진행했다.</p> <p contents-hash="eb0db0d4dd9d32f463dbb9cf628e41a1f37c521264806d93f15fe3cad8e378a3" dmcf-pid="fcBs2bhD5w" dmcf-ptype="general">한국 모델은 ▲업스테이지 솔라 프로-2 ▲LG AI연구원 엑사원 4.0.1 ▲네이버 HCX-007 ▲SK텔레콤 A.X 4.0(72B) ▲엔씨소프트 라마 바르코 8B 인스트럭트 등을 시험했다. 미국·중국 등 해외 모델의 경우 ▲오픈AI GPT-5.1 ▲구글 제미나이 3 프로 프리뷰 ▲앤트로픽 클로드 오푸스 4.5 ▲xAI 그록 4.1 패스트 ▲딥시크 V3.2 등을 적용했다. </p> <p contents-hash="2721f1fa36fa0a89e3e7238409b9229534b559f8e5807d522dd0ba8f87e3b020" dmcf-pid="4kbOVKlwXD" dmcf-ptype="general">해외 모델 점수는 76점~92점을 기록했지만 한국 모델은 솔라 프로-2가 58점으로 가장 높았고 나머지는 20점대였다. 경량모델인 라마 바르코 8B 인스트럭트는 2점이었다. </p> <p contents-hash="4020318a44e86eb705782c0c4f0f56ad0add0f471a04dfd8d91215d1410ad2cd" dmcf-pid="8EKIf9SrZE" dmcf-ptype="general">연구팀은 한국 모델들이 단순 추론으로는 대부분 문제를 풀지 못해 파이선(Python) 계산 툴을 활용할 수 있도록 설정했음에도 낮은 정답률을 보였다고 설명했다.</p> <p contents-hash="267b27d142540829a60a8c8b225b89f6b2931f81523392ac3f007759b26334dd" dmcf-pid="6D9C42vm5k" dmcf-ptype="general">연구진이 대학생 수준부터 교수급 연구 난도까지 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문항을 추가로 구성해 진행한 테스트에서도 격차는 컸다. 미·중 모델은 82.8점에서~90점, 한국 모델은 7.1점에서~53.3점에 그쳤다.</p> <p contents-hash="8db609bc4829973ea04d14754f96a0d6038c7aae0ae15def988ac377d9371b83" dmcf-pid="Pw2h8VTsHc" dmcf-ptype="general">문제 풀이를 3번 시도해 정답을 맞히면 통과하도록 기준을 완화했을 땐 미국과 중국 모델은 대부분 90점 이상을 받았고 그록은 만점을 기록했다. 그럼에도 솔라 프로-2는 70점, 엑사원은 60점, HCX-007은 40점, A.X 4.0은 30점, 라마 바르코는 20점에 머물렀다.</p> <p contents-hash="36285658daecc956d2792e85809fae9251be6b2c8640a9803c432cabcaa3930b" dmcf-pid="QrVl6fyOYA" dmcf-ptype="general">김 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트했다"며 "국내 모델 수준이 해외 모델보다 많이 뒤처짐을 알 수 있었다"고 했다. 이어 "한국 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다"고 부연했다.</p> <p contents-hash="59e00dbb203101b1cc46dca11dc533037e3bb8fd9d820e7048d5bcbb0ce01128" dmcf-pid="xmfSP4WIYj" dmcf-ptype="general">양진원 기자 newsmans12@mt.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 머니S & moneys.co.kr, 무단 전재 및 재배포 금지</p> 관련자료 이전 고준, ‘전신 화상 트라우마’ 고백… “친구들과 어울리기 어려웠다”(4인용식탁) 12-15 다음 코오롱베니트, 레드햇·리벨리온과 엔터프라이즈 AI 플랫폼 세미나 12-15 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.