국내 AI에 수능 수학·논술 풀게 했더니…대부분 낙제 작성일 12-15 6 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="2wRuu0DgvZ"> <figure class="figure_frm origin_fig" contents-hash="934fce6e8d598bff9990b1d0dd468f91e5c62bbe301601380e3b35f1fcd1fc4b" dmcf-pid="Vre77pwaWX" dmcf-ptype="figure"> <p class="link_figure"><img alt="AI 일러스트 이미지. 로이터=연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/joongang/20251215103854983hmqi.jpg" data-org-width="559" dmcf-mid="bVYccNqFlt" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/joongang/20251215103854983hmqi.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> AI 일러스트 이미지. 로이터=연합뉴스 </figcaption> </figure> <p contents-hash="ff15895bfbc675e75b0c00ff5dacabd6c2ebb85bde60575fb4b047528fd066ee" dmcf-pid="fmdzzUrNhH" dmcf-ptype="general"><br> 국가대표 인공지능(AI)에 도전 중인 국내 주요 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 모델에 크게 뒤처진다는 분석 결과가 나왔다. </p> <p contents-hash="85e511b6fe23b6a571dad618759adafcf414b22140cc2e31d2a0ccf1912ceb4d" dmcf-pid="4InbbzOcSG" dmcf-ptype="general">김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 대표 LLM과 챗GPT 등 해외 5개 모델을 대상으로 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 15일 공개했다. </p> <p contents-hash="88e469b714045a60cac0b88fdb1feb5c74d4cfcb54b54205fc70184165d6b180" dmcf-pid="8CLKKqIkvY" dmcf-ptype="general">연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하에서 최고 난도의 문항 5개씩 총 20문제를 선정했다. 논술 문제는 국내 10개 대학 기출 문제, 인도 대학입시 수학 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제로 구성해 총 50문항을 10개 모델에 제시했다. </p> <p contents-hash="a31ab310a6cbbde91c09e85b85602f6cbff3b7e11949d6d73db2d4b433ee2611" dmcf-pid="6ho99BCElW" dmcf-ptype="general">국내 모델로는 업스테이지의 솔라 프로-2, LG AI연구원의 엑사원 4.0.1, 네이버 HCX-007, SK텔레콤의 A.X 4.0(72B), 엔씨소프트의 경량 모델 라마 바르코 8B 인스트럭트가 활용됐다. 해외 모델은 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 대상이었다. <br> </p> <figure class="s_img figure_frm origin_fig" contents-hash="4cf81702a8d1507af69d052155dcb1f6925162248194c2a19826f264d42b895d" dmcf-pid="Plg22bhDSy" dmcf-ptype="figure"> <p class="link_figure"><img alt="수능 20문제+논술 30문제 풀이 점수. 서강대 김종락 교수팀 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/joongang/20251215103856282mgiz.jpg" data-org-width="199" dmcf-mid="K3kPP4WIC1" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/joongang/20251215103856282mgiz.jpg" width="199"></p> <figcaption class="txt_caption default_figure"> 수능 20문제+논술 30문제 풀이 점수. 서강대 김종락 교수팀 제공 </figcaption> </figure> <p contents-hash="7655a86531225910dc85bb0b7aa98e7fb16af0b520f7a7b48b3427d3badf19e0" dmcf-pid="QSaVVKlwvT" dmcf-ptype="general"><br> 평가 결과 해외 모델은 76점에서 92점 사이의 점수를 기록한 반면, 국내 모델은 솔라 프로-2만 58점을 받았고 나머지는 20점대에 머물렀다. 라마 바르코 8B 인스트럭트는 2점으로 최저점을 기록했다. </p> <p contents-hash="99d585369bbf2826575670235ab1672b621c46ebe9ac5e50b02a2ac55347fd91" dmcf-pid="xvNff9Srlv" dmcf-ptype="general">연구팀은 국내 모델의 경우 단순 추론만으로 문제 해결이 어려워 파이썬 도구 사용을 허용했음에도 성능 격차가 컸다고 설명했다. </p> <p contents-hash="97693d4758b46623fdd3df74f75e2b32799f0ebacc5e1eca01fbea7c96c11b0b" dmcf-pid="yP0CCs6bTS" dmcf-ptype="general">이어 연구팀은 대학 수준부터 교수급 연구 난이도까지 세분화한 자체 문제 세트 엔트로피매스 100문제 중 10문항을 선별해 추가 실험을 진행했다. 이 평가에서도 해외 모델은 82.8점에서 90점을 기록했지만, 국내 모델은 7.1점에서 53.3점에 그쳤다. </p> <figure class="figure_frm origin_fig" contents-hash="d3e7156c1b3f73f554fb88a750caee1e659afb82e909ac9046f094b02676de28" dmcf-pid="WQphhOPKSl" dmcf-ptype="figure"> <p class="link_figure"><img alt="엔트로피매스 10문제 풀이 점수. 서강대 김종락 교수팀 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/joongang/20251215103857513uxvz.jpg" data-org-width="394" dmcf-mid="9ZA88VTsy5" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/joongang/20251215103857513uxvz.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 엔트로피매스 10문제 풀이 점수. 서강대 김종락 교수팀 제공 </figcaption> </figure> <p contents-hash="50367b5d4bcc30840437496e2ecc315a1919ecfd701cf3c0dc7aa94edf3ee662" dmcf-pid="YxUllIQ9lh" dmcf-ptype="general"> 세 차례까지 풀이를 시도해 정답을 맞히면 통과하는 방식의 실험에서는 그록이 만점을 기록했고, 다른 해외 모델들도 90점을 받았다. 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점, HCX-007이 40점, A.X 4.0이 30점, 라마 바르코 8B 인스트럭트가 20점을 기록했다. </p> <p contents-hash="85abc0e59eeffe1f702893af627a3b9da4c70683cd57d16f4ccd43fea60ef80e" dmcf-pid="GMuSSCx2lC" dmcf-ptype="general">김종락 교수는 “국내 소버린 AI 모델의 수능 수학 평가가 없다는 질문이 많아 직접 테스트를 진행했다”며 “해외 프런티어 모델과의 격차가 상당하다는 점이 확인됐다”고 밝혔다. </p> <p contents-hash="9aa21eaf0f0810bbbf8119a4cf6fe46ca89051e7b91cb2e4a8e41afb2f97bfd2" dmcf-pid="HExppFkLSI" dmcf-ptype="general">연구팀은 이번 실험에 사용된 모델이 공개 버전인 만큼, 각 팀의 국가대표 AI 신규 버전이 공개되면 자체 개발 문제를 활용해 다시 성능을 평가할 계획이다. 김 교수는 “엔트로피매스를 기반으로 수학 리더보드를 구축했으며, 이를 국제적 수준으로 확대할 것”이라며 “문제 생성 알고리즘과 파이프라인을 고도화해 과학, 제조, 문화 등 다양한 도메인 특화 데이터세트 개발에도 기여하겠다”고 말했다. </p> <p contents-hash="6f4af44ae4402f96691112c542da4721fe9e66cac74c5e6b7d698d3e24b5b81c" dmcf-pid="XDMUU3EohO" dmcf-ptype="general">이번 연구는 서강대 수리과학 및 데이터사이언스 연구소(IMDS)와 딥파운틴의 공동 지원으로 진행됐다. </p> <p contents-hash="c63606cd4e63b4fc261a7701f9516534e5e05af619d3cc0c0c303ee43fc8584f" dmcf-pid="ZwRuu0DgCs" dmcf-ptype="general">정재홍 기자 hongj@joongang.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 중앙일보. 무단전재 및 재배포 금지.</p> 관련자료 이전 기안84, 해외서 23살 아들 생겼다…왕따 사연에 깜짝 ('극한84') 12-15 다음 제국의아이들 데뷔 15주년…유닛 일본 팬미팅 열려 12-15 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.