'돈 내면 성능평가 1위?'…'벤치마크 무용론'에 자금논란까지 작성일 05-08 17 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">평가맞춤 사전훈련·강력한 테스트버전 등 점수 부풀리기 '꼼수'<br>"벤치마크기관 관례적 보조금 등 마케팅 도구 전락" 비판</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="0wYr4l3IGN"> <figure class="figure_frm origin_fig" contents-hash="a4c5de2946f9564dd6c50266a99ab28388601fbe74078e95f30f725c32d52448" dmcf-pid="prGm8S0CHa" dmcf-ptype="figure"> <p class="link_figure"><img alt="다니엘 엘(Daniel L)이라는 인물이 올린 라마 4의 진실:벤치마크, 논란, AI의 미래에 미치는 영향(링크드인 게시글 갈무리)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/08/NEWS1/20250508062007836cuaf.jpg" data-org-width="753" dmcf-mid="FernpAva1A" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/08/NEWS1/20250508062007836cuaf.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 다니엘 엘(Daniel L)이라는 인물이 올린 라마 4의 진실:벤치마크, 논란, AI의 미래에 미치는 영향(링크드인 게시글 갈무리) </figcaption> </figure> <p contents-hash="bd6fb4ac1da82f959bbb94c3eb02dd375729cdaf5c1f5325ec639fb9c042c74f" dmcf-pid="UmHs6vphHg" dmcf-ptype="general">(서울=뉴스1) 김민석 기자 = 오픈AI·메타·xAI 등 빅테크 기업들이 자사 인공지능(AI) 모델 성능을 강조하고자 벤치마크 점수를 부풀리고 있다는 의혹이 커지고 있다.</p> <p contents-hash="a0a74909e8ed836c856ed233123bbe832f36ad6ce5c3f5e2194e95b9fac575e7" dmcf-pid="usXOPTUlZo" dmcf-ptype="general">일론 머스크 xAI CEO가 공개한 AI 모델 '그록3'에 이어 메타 '라마 4' 시리즈도 맞춤 사전 훈련 및 공개 버전과 다른 테스트 버전 적용 문제에 휩싸이며 벤치마크 지표가 믿을 만한 것인지 의문이 제기되고 있다.</p> <p contents-hash="2e65750026af0e92835374928d71bd3089a635a506e3e8b8333b1c4fbe4320eb" dmcf-pid="75K1AuQ0tL" dmcf-ptype="general">8일 IT업계와 외신에 따르면 메타는 지난달 라마4 시리즈를 발표하며 '챗봇 아레나(Chatbot Arena) 벤치마크'에서 'GPT-4o'와 '제미나이 2.0 프로'를 능가했다고 언급했다.</p> <p contents-hash="61e8ad5b22b06a247e6deaed5a62d70fd757fdb9b08ec87b0122bb8c1acce9a6" dmcf-pid="z19tc7xpHn" dmcf-ptype="general">그러나 출시 직후 메타가 공개한 모델과 벤치마크 테스트 적용 모델 간 품질(성능) 차이가 있다는 의혹이 제기됐다.</p> <p contents-hash="cd70887ec0a3d8dd5a74e31e89523a6f9444cf0232f2b203b530787dcf102cce" dmcf-pid="qt2FkzMUYi" dmcf-ptype="general">코히어(캐나다 AI 스타트업)·프린스턴 대학교·하버드 대학교 등 연구진이 발표한 논문에 따르면 메타는 올해 1~3월 챗봇 아레나에서 라마4의 27개 변형 버전을 비공개로 테스트하고 해당 피드백을 기반으로 제품 출시 일정을 앞당겼다.</p> <p contents-hash="d38c8c1ba3e3a7c3a4920bf97f1a1c1392bb1448e0152195f73552eb416bae74" dmcf-pid="BFV3EqRuGJ" dmcf-ptype="general">메타 측은 "테스트 세트에 맞춘 학습은 없었다"고 처음엔 전면 부인했지만 의혹이 확산하자 "정식 모델을 벤치마크에 사용하지 않았다"고 시인했다.</p> <figure class="figure_frm origin_fig" contents-hash="1f405cc39257bb47e47ae6e48bcd034ff0f3d0000bb3823d1e551c3401af36c1" dmcf-pid="b3f0DBe7Hd" dmcf-ptype="figure"> <p class="link_figure"><img alt="일론 머스크 xAI CEO 그록3 공개" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/08/NEWS1/20250508062009301xlcd.jpg" data-org-width="670" dmcf-mid="3BP7s2nb5j" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/08/NEWS1/20250508062009301xlcd.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 일론 머스크 xAI CEO 그록3 공개 </figcaption> </figure> <p contents-hash="50baa8ad43c0f3eaa89d0e0d56e9831f66777179ca1f49e1165290ea66786cb7" dmcf-pid="K04pwbdzXe" dmcf-ptype="general">머스크 CEO도 그록3 발표 생방송에서 수학·과학·코딩 벤치마크 지표를 토대로 'GPT-4' 'GPT-o3-mini-high' '제미나이 2.0' 등을 능가했다고 주장했지만, xAI는 이를 뒷받침할 기술보고서 등을 공개하지 않았다.</p> <p contents-hash="4d4724a1d8c1572b7e15279e32ba13b3a4ef88014834ce07d02d18610737ace5" dmcf-pid="9p8UrKJq5R" dmcf-ptype="general">오픈AI도 예외가 아니다. 지난해 12월 o3 모델을 공개하며 FrontierMath 벤치마크에서 25% 이상 문제를 해결했다고 발표했지만, 검증 결과 실제 성능은 10% 수준에 그쳤다. 오픈AI 역시 "내부 테스트에 더 강력한 미공개 버전을 사용했다"고 시인했다.</p> <p contents-hash="f18b92329d9a772f925078f2f1bbc230d91b72b2fce177869d42cc9938c04715" dmcf-pid="2U6um9iB5M" dmcf-ptype="general">해당 사례들은 벤치마크 조건에 맞춰 훈련한 테스트 모델을 구동해 획득한 지표는 실제 AI 성능을 반영한 게 아니라는 'AI 모델 벤치마크 무용론'이 커지는 배경이다.</p> <p contents-hash="52f77f7840b648dbb82eaa438cbba14aa69aa6a3ba5c13b1eb1c82bcac5454b7" dmcf-pid="VuP7s2nb1x" dmcf-ptype="general">미국 스탠퍼드대 인간중심AI연구소(HAI)는 올해 2월 보고서에서 "벤치마크 발표 사례 150개 이상을 검토한 결과 데이터 조건을 통제하는 모습을 보였고 다른 조건에선 수치를 재현하지 못했다"고 비판했다.</p> <p contents-hash="ff25c78ee06aee155f55d514c114ef9df560e5ba281d75a7f130499862e5641d" dmcf-pid="f7QzOVLK1Q" dmcf-ptype="general">벤치마크 기관의 자금 출처 문제도 떠올랐다. 오픈AI·메타·구글 등 실리콘밸리 기업들이 벤치마크 기관에 관례적으로 보조금을 지원하고 있어 평가 결과에 영향을 미칠 수 있다는 우려다.</p> <p contents-hash="21056a6fdae6a7f9d451157bfc05eb668269f4f83eea225aa48f9371f5aae3a1" dmcf-pid="4zxqIfo9XP" dmcf-ptype="general">올해 1월 AI 수학 벤치마크를 개발하는 비영리 단체 Epoch AI가 오픈AI로부터 자금 지원을 받았다는 사실이 뒤늦게 드러나 논란이 됐다. 인간 선호도 평가(챗봇 아레나 등)로 유명한 LMSYS가 일부 AI 기업과 결탁해 더 높은 점수를 얻도록 지원했다는 폭로도 나왔다.</p> <p contents-hash="8434267e9d85a4893e40b8ae111bbda24dd36c6e3a51622acb77a2e3dd220b25" dmcf-pid="8Zb5jUP3Z6" dmcf-ptype="general">유럽연합 공동연구센터는 "기업 간 투자자 유치 경쟁이 치열해지면서 설계된 벤치마크 수치를 과도하게 강조하고 있다"며 "현재 AI 성능 평가 방식은 마케팅 도구에 가깝다"고 일갈했다.</p> <p contents-hash="de53ae1ea02f81ed4df7aa38fda1ae8bbf23408593337bce0c4a0f78e5b5f3a5" dmcf-pid="65K1AuQ0H8" dmcf-ptype="general">ideaed@news1.kr</p> <p contents-hash="638a26654e4439a51385b8568620c0eec7e54a08326cee64479255ba042f6db7" dmcf-pid="P19tc7xp54" dmcf-ptype="general"><strong><용어설명></strong></p> <p contents-hash="c50568f08f4fb51275e991fa436dbff95c42796523f09d5b5bb036cb09399ecd" dmcf-pid="Qt2FkzMUtf" dmcf-ptype="general">■ LMSYS LMSYS는 대규모언어모델(LLM)과 시스템을 개발하는 비영리 연구 조직으로 AI 모델의 개방성·접근성·확장성 확대를 목표로 다양한 프로젝트를 수행하고 있다. LMSYS는 챗봇 아레나(Chatbot Arena) 플랫폼을 통해 사용자들이 블라인드 상태로 두 개의 AI 모델 응답을 비교해 더 나은 답변을 투표하는 방식으로 성능 평가(인간 선호도 평가)를 지원한다.</p> </section> </div> <p class="" data-translation="true">Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.</p> 관련자료 이전 송일국, 사춘기 삼둥이 눈치 “♥아내에 반항NO..나한테 스트레스 풀어” (‘라스’)[핫피플] 05-08 다음 김영란 “딸 덕 MBTI 알아, 아들만 있는 사람들 불쌍해” (라이프)[결정적장면] 05-08 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.