[단독] ‘국가대표 AI’ 평가, 네이버 감안해 개별 벤치마크(시험지) 도입했다 작성일 01-13 40 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">네이버만 옴니모달 모델 개발해<br>공통 벤치마크와 개별 벤치마크 합산하기로<br>업계 “LLM과 옴니모달 성능 비교 가능한가”<br>네이버의 중국산 모듈 사용도 문제</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="uyn0GIwaGR"> <figure class="figure_frm origin_fig" contents-hash="4f129e50022adf900e42ffb1e1aba6d0fc0fddd82b681188c731dc9ebdee5509" dmcf-pid="7WLpHCrN1M" dmcf-ptype="figure"> <p class="link_figure"><img alt="하정우 대통령실 AI미래기획수석이 '독자 AI파운데이션 프로젝트 발표회'를 앞두고 네이버 클라우드 부스에서 설명을 듣고 있다. 2025.12.30/뉴스1 ⓒ News1 구윤성 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/13/chosun/20260113110206197tyzu.jpg" data-org-width="5000" dmcf-mid="yiTd3WlwZm" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/13/chosun/20260113110206197tyzu.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 하정우 대통령실 AI미래기획수석이 '독자 AI파운데이션 프로젝트 발표회'를 앞두고 네이버 클라우드 부스에서 설명을 듣고 있다. 2025.12.30/뉴스1 ⓒ News1 구윤성 기자 </figcaption> </figure> <p contents-hash="7dc28ad4a6e88c6d5773bed3d1f31b4d60371e18f9de56591183d6611c141ca5" dmcf-pid="zSwVuXyOGx" dmcf-ptype="general">‘국가대표 AI’ 1차 평가에서 AI 성능을 평가하기 위한 기준으로 공통 벤치마크 외에 각 업체가 선택한 개별 벤치마크도 도입된 것으로 알려졌다. LLM(대형언어모델)을 개발한 업스테이지·SK텔레콤·NC AI·LG AI연구원과 달리 네이버클라우드만 이미지·영상 등을 인식하는 옴니모달 모델을 개발했기 때문이다.</p> <p contents-hash="54e4846e9a5457bb1c051f49d958d6b9e2c599e81b51bcc55bc911c899985678" dmcf-pid="qvrf7ZWIYQ" dmcf-ptype="general">AI 업계에선 “LLM과 옴니모달을 동일 선상에서 비교하는 게 가능한지 의문”이라며 “특히 네이버가 중국산 모듈을 사용한 상황에서 개별 벤치마크 평가 점수를 합산하는 것이 독자 AI 파운데이션 모델 선정이라는 이번 사업 취지에 맞는지 모르겠다”는 이야기가 나온다.</p> <p contents-hash="30f5e95031bfe47fb9568538dd27787660afa0445c619c807d54ea31dbcbc9ce" dmcf-pid="BTm4z5YCYP" dmcf-ptype="general">과학기술정보통신부가 꾸린 전문 심사위원단은 이달 초부터 국가대표 AI 5팀이 제출한 AI 파운데이션 모델 성능을 평가했다. AI 모델 성능을 테스트하려면 이를 객관적으로 측정하고 비교하기 위해 설계된 표준화된 평가 기준(벤치마크)이 필요하다. 과기정통부와 국대 AI는 그동안 벤치마크 선정 문제를 놓고 여러 차례 협의한 것으로 알려졌다.</p> <p contents-hash="2bc0ffcdb17851bb81162f0a4217aa5c787b2d965525ed56bbfe808594cb0e74" dmcf-pid="bys8q1GhY6" dmcf-ptype="general">그런데 나머지 4개 업체와 달리 네이버클라우드가 개발하는 모델만 이미지·영상 등을 인식하는 AI 모델이라 벤치마크 선정 과정에서 논란이 있었다고 한다. 네이버 측이 LLM과 옴니모달을 한 가지 잣대로 평가하는 것은 불합리하다고 주장했기 때문이다. 결국 국대 AI와 과기정통부는 공통 벤치마크 외에 업체별로 개별 벤치마크를 2개씩 선택해 평가에 반영하기로 합의한 것으로 전해졌다. 각 업체가 자체적으로 시험지를 골라 시험을 본 성적을 평가에 반영하겠다는 것이다.</p> <p contents-hash="6b976fa4c799ff84878c9b77494226bd125e65008ef2f2711435b43e7964678f" dmcf-pid="KWO6BtHl58" dmcf-ptype="general">일각에선 네이버가 핵심 모듈인 ‘비전 인코더’에 중국 QWEN의 ‘Qwen2.5 ViT’를 사용한 만큼 개별 벤치마크 평가 점수를 합산하는 게 공정하지 않다는 목소리도 나온다. 비전 인코더는 옴니모달에서 눈 역할을 하는 장치로, 외부 정보(이미지·영상)를 AI가 이해할 수 있도록 디지털 신호로 바꿔주는 역할을 한다. AI 전문가들은 네이버가 QWEN의 비전 인코더를 도입하면서 가중치(학습이 완료된 지능)까지 재사용했다고 보고 있다. 당초 정부는 이번 프로젝트를 추진하면서 “프롬 스크래치(아무것도 없는 상태에서 개발했다는 뜻)부터 시작해 AI 파운데이션 모델을 개발해 소버린 AI를 확보하고자 한다”는 목표를 밝혔었다.</p> <p contents-hash="67bf751a211bf97759c6e11fa7cf58d79f6115260ea9090ab95a1a8cfc774c15" dmcf-pid="9YIPbFXSG4" dmcf-ptype="general">네이버는 개별 벤치마크로 ‘텍스트 VQA’와 ‘DocVQA’를 선택한 것으로 전해졌다. 전자는 이미지 속에 포함된 텍스트(간판, 티셔츠 문구 등)를 읽고 질문에 답하는 능력이고, 후자는 문서를 시각적으로 읽고 그 내용을 이해해 질문에 답하는 능력이다. 비전 인코더의 역할이 필수적인 평가 항목이다. AI 스타트업 관계자는 “독자 AI 파운데이션 모델 성능을 측정하는 것이 이번 국대AI 프로젝트의 근본 목표인데 네이버의 경우 QWEN의 비전 인코더 성능 측정이 큰 비중을 차지한다”면서 “네이버가 자체적인 비전 인코더를 갖고 있다고 입장을 밝혔는데 왜 중국산을 써서 이런 논란을 일으키는지 모르겠다”고 말했다.</p> </section> </div> <p class="" data-translation="true">Copyright © 조선일보. 무단전재 및 재배포 금지.</p> 관련자료 이전 올데이 프로젝트 타잔, 솔로곡 'MEDUSA' MV 공개 01-13 다음 2016년 윔블던 준우승자 밀로스 라오니치, 코트와 작별 01-13 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.