[단독] 국대AI 탈락한 네이버, 글로벌 성능 평가선 3등 '합격' 작성일 01-29 4 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="KgwTTYOcCh"> <p contents-hash="50f8e3c638cf00f7c921201afabf1d731121c5e3ccee76ab2a19d92957415e53" dmcf-pid="9aryyGIkyC" dmcf-ptype="general">국가대표 인공지능(AI) 선발전에서 탈락한 네이버클라우드의 AI 모델이 글로벌 AI 벤치마크 평가에선 합격권의 성능을 낸 것으로 나타났다. 이를 두고 성능과 독자성 요건 사이 어떤 AI를 국가 대표로 선정할지에 대한 평가 기준 논란이 커지고 있다. 독자성 요건에만 매몰돼 국내 AI 모델 성능 개선의 발목을 잡을 수 있다는 우려도 나온다. </p> <div contents-hash="583c285a007bdf0a95e7a5d8115130a9fed7a082d1226f190e378b126d28893a" dmcf-pid="2NmWWHCElI" dmcf-ptype="general"> ━ <br> <p> 네이버, 성능만 놓고 보니 3위 </p> <br> 28일 글로벌 AI 성능 평가 솔루션업체 W&B(웨이트앤바이어스)가 독자 AI 파운데이션 모델 개발 프로젝트(이하 독파모)에 참여한 AI 모델 5개를 평가한 결과, 네이버의 모델이 63.3점(100점 만점)으로 5개 회사 중 3위를 기록했다. LG AI연구원(67.58점), SK텔레콤(64.87점) 다음이다. 지난 15일 열린 과학기술정보통신부 독파모 1차 평가에서 네이버를 제치고 다음 라운드에 진출한 업스테이지 모델의 성능은 62.05점으로 4위였다. NC AI의 모델은 최하위를 기록했다. </div> <p contents-hash="0bff11cbe87952f6ee977f4ac912c34dca0ce147180903c45b820053b1ba4956" dmcf-pid="VjsYYXhDSO" dmcf-ptype="general">W&B는 네이버의 모델을 두고 AI 지능을 결정하는 파라미터(매개변수) 규모는 320억개로 5개 기업 중 가장 작았지만, 효율적 설계로 AI의 성능을 끌어올렸다고 평가했다. 보고서는 “(네이버는) 다른 AI모델의 3분의 1 수준인 크기지만, 대등하게 경쟁하며 종합 3위를 기록했다”며 “네이버가 수집한 한국어 데이터의 품질이 좋고, AI 학습 효율성이 월등한 결과로 해석한다”고 밝혔다. </p> <figure class="figure_frm origin_fig" contents-hash="5ec8d59c72e0e4b9d84c5b05386bb15a0d553d8354e79e1b87bff79979d75298" dmcf-pid="fxorrOjJhs" dmcf-ptype="figure"> <p class="link_figure"><img alt="김영옥 기자" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/29/joongang/20260129060148498xler.jpg" data-org-width="1280" dmcf-mid="Bi4iioQ9vS" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/29/joongang/20260129060148498xler.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 김영옥 기자 </figcaption> </figure> <p contents-hash="cc78cf64009cb3dec03f906c0ccfaa0b0a1fe237b43ffa7f7ba04fa66c2f9f65" dmcf-pid="4MgmmIAiTm" dmcf-ptype="general"><br> 2017년 미국에서 설립된 W&B는 AI 학습 결과, 가중치 등을 검증해주는 솔루션 개발사다. AI 모델 성능을 점검하는 측정 도구 같은 역할을 한다. 오픈AI, 엔비디아, 메타 등 글로벌 빅테크도 자사 AI를 개발할 때 W&B를 사용한다. 국가대표 AI 선발전 참여한 기업도 W&B를 사용해 중간 점검을 했다. W&B는 한국어 LLM(대규모 언어모델)의 성능을 평가하기 위해 자체 개발한 벤치마크 ‘호랑이 리더보드4’를 사용해 이번 평가를 진행했다. 추론·수학·코딩 능력을 평가하는 22개 벤치마크를 한데 모아 AI모델의 성능을 측정하는 벤치마크다. W&B는 이 벤치마크 결과를 글로벌 개발자 플랫폼 ‘깃허브’에 공개할 예정이다. </p> <div contents-hash="655f3fd005f80e5f5f53e31a9eaff3304bb6c5a26c48a22389929b86899acdde" dmcf-pid="8RassCcnWr" dmcf-ptype="general"> ━ <br> <p> 성능 vs 독자성, 평가기준 논란 </p> <br> 독파모 1차 평가에서 탈락한 네이버의 AI 모델이 다음 라운드에 진출한 업스테이지의 AI보다 성능이 좋다는 결과를 두고 AI 업계에선 독파모 평가 기준에 대한 논란이 커지고 있다. 과학기술정보통신부는 지난 15일 1차 평가 결과를 발표하며 평가 기준을 공개했다. AI모델의 성능을 수치로 나타낸 정량평가 배점은 40점으로 책정했다. 한국지능정보사회진흥원(NIA)이 자체 개발한 벤치마크와 글로벌 벤치마크 등을 가중평균해 점수를 메겼다. 나머지는 전문가 평가(35점), 실제 사용자 평가(25점) 등 정성 평가로 채웠다. 과기정통부는 정량 평가 순위를 공개하지 않았지만 “(네이버는) 정성평가에서 독자성 기준을 충족하지 못해 탈락했다”고 설명했다. 네이버가 독파모 AI 모델에 중국의 오픈소스 AI 모델인 큐엔(Qwen)의 ‘비전 인코더’를 가져다 사용한 점 등을 고려했다는 취지다. </div> <p contents-hash="3a6017205335af05bd1625b10bd42f6a9e5dae2cd80e2e0c7ae89453a07a473f" dmcf-pid="6eNOOhkLSw" dmcf-ptype="general">과기정통부는 W&B 벤치마크 결과에 대해 “평가 기준을 만들 때 선발전 참여 기업과 충분히 논의해서 적용했기 때문에 형평성과 객관성을 확보했다”며 “글로벌 벤치마크 하나(W&B)만으로 AI모델의 순위를 정하면 객관성이 부족하다 판단했다”고 설명했다. </p> <figure class="figure_frm origin_fig" contents-hash="b4c7764498bc033e696fa534ab9726d57981752813aa2422e2ea4236a69cb82a" dmcf-pid="PdjIIlEoWD" dmcf-ptype="figure"> <p class="link_figure"><img alt="지난 15일 류제명 과학기술정보통신부 2차관이 서울 종로구 정부서울청사에서 독자 AI 파운데이션 모델 프로젝트 1차 단계 평가 결과를 브리핑하고 있다. 뉴스1" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/29/joongang/20260129060149773yuai.jpg" data-org-width="1278" dmcf-mid="bwNOOhkLTl" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/29/joongang/20260129060149773yuai.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 지난 15일 류제명 과학기술정보통신부 2차관이 서울 종로구 정부서울청사에서 독자 AI 파운데이션 모델 프로젝트 1차 단계 평가 결과를 브리핑하고 있다. 뉴스1 </figcaption> </figure> <p contents-hash="e5f5691f7ff25a7ccc6c03ad94a74b7f8fd98bb8fcd60d46cf530d1bf11e47b4" dmcf-pid="QJACCSDgWE" dmcf-ptype="general"><br> AI 업계에선 독파모 프로젝트의 엄격한 독자성 요건이 글로벌 트랜드에 맞지 않다는 지적이 나온다. 국산만 고집해 해외 오픈소스 모델을 외면할 경우 AI모델 개발 속도만 더뎌질 것이란 설명이다. 이 경우 국가대표 AI모델을 최종 선발해도, 국내 기업이 이를 외면하고 해외 AI모델을 쓸 수 있다. 최종현학술원은 지난 14일 발간한 보고서에서 독자 AI 모델 개발의 필요성을 인정하면서도 효율성과 지속성 측면에서 오픈소스 모델을 활용하는 것이 합리적일 수 있다는 진단을 내놓았다. 학술원은 “성능이 충분하지 않은 AI를 자국산이란 이유로 적용을 강제하면, 액티브X나 공인인증서처럼 한국 IT생태계가 고립될 수 있다”며 “되레 한국이 글로벌 표준과 괴리돼 ‘갈라파고스’가 될 수 있다“고 지적했다. </p> <p contents-hash="235b71f531c2dbddb622d180322a5183735bea8b49206f99a17edcd6c81b2e27" dmcf-pid="xichhvwaSk" dmcf-ptype="general">실용성에 초점을 맞춰 평가 기준을 정비해야 한다는 목소리도 나온다. 국내 AI개발 스타트업의 한 임원은 “AI 전환(AX)이 이뤄지려면 국내 기업이 국가대표 AI를 사용해야 하는데, 성능이 떨어지면 결국 공공기관만 이를 쓰게 될 것”이라며 “기업이 중요하게 여기는 가성비(토큰 가격 대비 성능)나 AI 에이전트(비서) 호환성 등 실용성을 평가하는 비중이 작은 것도 문제다”라고 비판했다. 과기정통부 관계자는 이에 대해 “실제 사용자 평가와 같은 정성 평가를 통해 실용성을 심사했으며, 2차 평가에선 기준을 더 강화할 것”이라고 해명했다. </p> <p contents-hash="1feaebde2ea99306b4b37f82a5b6e1631aa0b77f1ae46a59957f3d0ea6398a89" dmcf-pid="yZu44PB3Wc" dmcf-ptype="general">다만 국가대표 AI를 뽑는 만큼 독자성을 평가 기준에서 완전히 배제할 수 없다는 반론도 있다. 과기정통부도 지난 23일 국가대표AI 재도전 공모에서 “해외 AI모델을 차용하더라도, 가중치를 초기화해 학습하는 게 독자성의 최소 조건이다”라고 명시했다. 그렇다해도 정부가 국가대표 AI모델을 향후 어떻게 쓴다고 명시하지 않은 탓에 개발 계획을 수립하기 어렵다는 의견도 나온다. 한 AI개발사 대표는 “차라리 정부가 국가대표 AI의 쓰임새와 개발 로드맵을 제시해주는게 나을 것”이라고 말했다. </p> <p contents-hash="1e11a98d2753250fcd4ed927b68c9146a949ebfcaa1f8275d2447487f2784e61" dmcf-pid="W5788Qb0hA" dmcf-ptype="general">■ 더중앙플러스 : 팩플</p> <p contents-hash="64182c05d230dc717dc84285922493b0fbbf21f183d717b5d565dce096afb731" dmcf-pid="YFBQQR2uvj" dmcf-ptype="general">「 더 자세한 기사 내용이 궁금하시다면, 주소창에 링크를 붙여넣으세요. </p> <p contents-hash="c62ed616043bbbb47d6ea7458790da1d18d486eeffbabbfc40ad4ee92d61f01c" dmcf-pid="G3bxxeV7TN" dmcf-ptype="general">충격의 ‘AI 국대 선발전’ 해설…네이버는 왜 1차전 실격했나 <br> 안방 챔피언의 1차전 탈락은 충격적이었다. 국가대표 AI 프로젝트 1차 평가에서 고배를 마신 네이버 이야기다. 한국만의 독자적인 AI 모델의 필요성을 꾸준히 주장해 온 ‘소버린 AI’의 원조이자 국내 최초 생성 AI 모델인 하이퍼클로바 시리즈를 개발한 네이버였다. 그랬던 네이버가 ‘독자성을 충족하지 못했다’는 이유로 탈락했다. 사실상 실격이다. 이번 논란, 제대로 이해한 이들은 얼마나 될까. 업스테이지는 ‘프롬 스크래치’라 괜찮고, 네이버는 중국산 ‘비전 인코더’라 문제가 됐다고 하는데. 이번 논란의 핵심과 진실은 무엇일까. 팩플이 문과도 이해할 수 있도록 국대 AI를 밑바닥부터 파헤쳤다. 전문용어를 최대한 뺀 담백한 리포트로 국대 AI 논란 완전정복! https://www.joongang.co.kr/article/25399502 </p> <p contents-hash="db940cf3af861c64c92547ee4481b71484a6d7f4bce3f5d116957232d0f395f7" dmcf-pid="H0KMMdfzya" dmcf-ptype="general">“챗GPT처럼 인간에 아부 말라” 불친절 ‘제미나이’ 대세인 이유 <br> 챗GPT 천하였던 생성 AI 시장에 제미나이를 앞세운 구글이 무서운 기세로 치고 올라오고 있다. 샘 올트먼 오픈AI 최고경영자(CEO)는 지난해 말 비상 단계인 코드 레드를 발령했을 정도. 그런데 불과 2년여 전만 해도 상황은 정반대였다. 2023년 초 급하게 바드(Bard, 제미나이 전신)를 공개했지만 시연에서 할루시네이션(AI의 그럴싸한 거짓말)을 적나라하게 노출하며 체면을 구겼다. 주가는 당일 하루 만에 7% 넘게 하락했다. 그랬던 구글은 어떻게 반전 드라마를 쓸 수 있었을까. 모바일 시대를 넘어 AI를 ‘기본값’으로 만드는 싸움에서 구글은 최종 승자가 될 수 있을까. 시총 4조 달러 고지로 구글을 밀어 올린 AI 전략의 오늘과 내일이 궁금하다면. <br> https://www.joongang.co.kr/article/25400289 <br> 」</p> <p contents-hash="3d44f09ad839686882acab610168f565de06f6e7726f5ccfede2171ddccc4ba6" dmcf-pid="Xp9RRJ4qCg" dmcf-ptype="general">오현우 기자</p> </section> </div> <p class="" data-translation="true">Copyright © 중앙일보. 무단전재 및 재배포 금지.</p> 관련자료 이전 美 vs.中 AI·로봇 패권 경쟁… ETF 수익률은 中 ‘완승’ 01-29 다음 “인물 주변 살짝 지웠는데 AI 생성물 표시?" 인공지능기본법 적용 어디까지 01-29 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.