제미나이 1위·지피티 2위?...인공지능 ‘등수’는 어떻게 매기는 걸까 작성일 12-14 30 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="8vVj3yiPrQ"> <figure class="figure_frm origin_fig" contents-hash="4eeb738e70e5d6eb972e19daa956861dbf7bfba486afe48a47a91181c759ca4c" dmcf-pid="6TfA0WnQmP" dmcf-ptype="figure"> <p class="link_figure"><img alt="게티이미지뱅크" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143632595ztie.jpg" data-org-width="505" dmcf-mid="4QIpaxZvEx" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143632595ztie.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 게티이미지뱅크 </figcaption> </figure> <p contents-hash="ed97931bf34c0c6d2a997c75ab9bb4aa23f882601ccb79710a8b1c92ac1b6b2c" dmcf-pid="Py4cpYLxI6" dmcf-ptype="general"> 제미나이3, 지피티(GPT)5.2 등 인공지능 성능 경쟁이 갈수록 치열해지는 가운데, 인공지능의 ‘똑똑한 정도’를 어떻게 평가하는지에 대한 관심도 높아지고 있다. 추론·수리·개발 등 인간의 기능에 필적하는 종합적인 역량을 평가해야 하기 때문에, 이를 객관적으로 수치화할 수 있는 다양한 ‘벤치마크’ 성능 평가가 마련돼 있는 상황이다.</p> <p contents-hash="b9b2445297a6f7bf03f47ec242e1350779eee4d6483850be6bf991a918f1bf9c" dmcf-pid="QY6EuHgRI8" dmcf-ptype="general">사용자의 직접 평가를 반영하는 벤치마크는 ‘엘엠아레나’(LMArena)가 있다. 엘엠아레나는 말 그대로 언어모델(Language Model)들의 경기장(Arena)이다. 사용자는 기존 인공지능 서비스를 사용할 때처럼 질문을 던진 뒤 익명의 인공지능으로부터 두개의 답변을 받아본다. 둘 중 훌륭한 답변 하나를 고르거나, 무승부를 선언하거나, 둘 다 별로라고 판단할 수도 있다. 이렇게 사용자가 내린 평가를 모아 순위를 매기는 방식이다. 엘엠아레나의 순위표(리더보드)에 가면 ‘텍스트’, ‘개발’, ‘이미지 수정’ 등 영역별로 인공지능의 순위를 볼 수 있다. 12월14일 기준으로 웹 개발을 제외한 대부분의 영역에서 구글의 제미나이3 프로가 1등을 차지하고 있다.</p> <figure class="figure_frm origin_fig" contents-hash="b7a331f333483ad1b9b26a00da0b79c9756b4047499970937bf7201b8a3e2c80" dmcf-pid="xGPD7Xaem4" dmcf-ptype="figure"> <p class="link_figure"><img alt="엘엠아레나에서 인공지능의 답변을 평가하는 방식. 엘엠아레나 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143118126bdfh.jpg" data-org-width="970" dmcf-mid="YBl2wLUZrR" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143118126bdfh.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 엘엠아레나에서 인공지능의 답변을 평가하는 방식. 엘엠아레나 갈무리 </figcaption> </figure> <p contents-hash="9aa3caab1ae601ada343b6fd9e2e4355697d807742141e05606eeb83dfd072e5" dmcf-pid="yevqkJ3Gmf" dmcf-ptype="general"> 최근 많이 사용되는 벤치마크는 ‘인류의 마지막 시험’(HLE)이다. 인류의 마지막 시험은 기존 벤치마크에서 인공지능들이 90% 이상의 정확도를 달성함에 따라 ‘아주 어려운 문제를 풀게 해보자’는 취지로 만들어졌다. 수학, 물리학 등 100개 이상의 과목에서 교수나 연구자들이 제공한 2500개의 문제를 풀도록 한다. 제미나이3 프로는 이 시험에서 37.52%의 정답률을 보였다. 지피티5.2 프로가 기록한 정답률은 34.5%다.</p> <figure class="figure_frm origin_fig" contents-hash="dfa5017ac17cca32970dfcbc62a41c86b95f0e98b4290d9328e9300696059397" dmcf-pid="WdTBEi0HsV" dmcf-ptype="figure"> <p class="link_figure"><img alt="인류의 마지막 시험 예시문제. 왼쪽은 지금은 소멸한 언어인 팔미라어의 번역을 묻는 문제이며, 오른쪽은 벌새의 해부학적 구조에 대한 문제다. 인류의 마지막 시험 누리집 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143119373aawt.jpg" data-org-width="970" dmcf-mid="G5Vsq5jJmM" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143119373aawt.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 인류의 마지막 시험 예시문제. 왼쪽은 지금은 소멸한 언어인 팔미라어의 번역을 묻는 문제이며, 오른쪽은 벌새의 해부학적 구조에 대한 문제다. 인류의 마지막 시험 누리집 갈무리 </figcaption> </figure> <p contents-hash="6266c167f8ca16dcd1382a341b5d5db3e0ec568f9a961a903481778bc6b34745" dmcf-pid="YJybDnpXm2" dmcf-ptype="general"> 자율적으로 작업하는 에이전트 인공지능의 중요성이 부각됨에 따라 주목받는 벤치마크도 있다. 인공지능이 직접 자판기를 운영하고 그 성과를 보는 ‘벤딩 벤치’(Vending-Bench)다. 인공지능이 향후 실제 경제활동에 참여하는 걸 상정한 측정 방식이다. 인공지능이 재고를 관리하고 가격을 책정하는 등의 경제적 활동을 했을 때 얼마나 잘 운영하는지 확인한다. 제미나이3 프로는 초기 자금 500달러로 시작해 1년이 지났을 때 잔고 5478달러를 남겨 1위를 차지했는데, ‘가격이 좋은 공급업체를 찾아내는 능력이 매우 뛰어나다’는 평가를 받았다.</p> <figure class="figure_frm origin_fig" contents-hash="12cf6eebf192584d09f71e11320fca8cd02a49dd557c252a459417703b449a53" dmcf-pid="GiWKwLUZD9" dmcf-ptype="figure"> <p class="link_figure"><img alt="벤딩 벤치를 개발한 ‘앤돈 랩스’ 누리집 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143120636tmla.jpg" data-org-width="944" dmcf-mid="HjUN1Se4rx" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143120636tmla.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 벤딩 벤치를 개발한 ‘앤돈 랩스’ 누리집 갈무리 </figcaption> </figure> <figure class="figure_frm origin_fig" contents-hash="79fbfe16261f9522ebbb4bafe2120e14a19b4551e2f7c423bd85d0eff216751d" dmcf-pid="HnY9rou5rK" dmcf-ptype="figure"> <p class="link_figure"><img alt="벤딩 벤치에서 인공지능들이 기록한 잔고현황. 벤딩 벤치 소개 페이지 갈무리" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/14/hani/20251214143121922tdyp.jpg" data-org-width="970" dmcf-mid="XCujtvd8EQ" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/14/hani/20251214143121922tdyp.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 벤딩 벤치에서 인공지능들이 기록한 잔고현황. 벤딩 벤치 소개 페이지 갈무리 </figcaption> </figure> <p contents-hash="a937dc61cf3062a4e697631f578811e62b79276d16fa18a55909ad9664b335d6" dmcf-pid="XLG2mg71sb" dmcf-ptype="general"> 이 외에 코딩 오류를 고치는 능력으로 개발 성능을 평가하는 ‘에스더블유이(SWE)벤치’, 수학 올림피아드급 난이도의 문제를 푸는 ‘매스아레나 에이펙스’(MathArena Apex)등도 활용된다.</p> <p contents-hash="df1c64179ad285ee34bfc98a699c7860814e638a4c69b6c8e4f1fb0a423c1eea" dmcf-pid="ZoHVsaztEB" dmcf-ptype="general">인공지능 벤치마크는 널리 활용되고 있지만 지나치게 능력 평가에만 매몰됐다는 비판의 목소리도 있다. 유럽연합 집행위원회 산하 공동연구센터(JRC) 연구진은 지난 5월 낸 논문에서 “많은 벤치마크가 윤리나 안전 같은 목표보다는 높은 경제적 보상이 기대되는 과업에만 초점을 맞추고 있다”고 비판했다.</p> <p contents-hash="5743cffe158df5ef440a2b92993ab51fb6c6e4ae1d7311532a4ccfbfb1c21a61" dmcf-pid="5gXfONqFmq" dmcf-ptype="general">채반석 기자 chaibs@hani.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지</p> 관련자료 이전 신지 “♥문원 집안 좋다, 그동안 재산 ‘먹튀’한 前남친들과 달라” 12-14 다음 상업 시장 도전…이노스페이스 '한빛-나노' 17일 우주로 12-14 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.