한국어 맥락 이해하는 K-AI 지표 나온다 작성일 06-11 27 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">AI모델 측정 평가기준 구축 위해<br>과기정통부·NIA 연내 사업 완료<br>국어 복합적 의미 해석 역량 높여<br>독자적 벤치마크 데이터셋 확보</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="9CF1PccnSA"> <figure class="figure_frm origin_fig" contents-hash="4a0efcfc5b4428849f2570e47e5e7e6e33f9a687785738f95b36502e822517a5" dmcf-pid="2h3tQkkLWj" dmcf-ptype="figure"> <p class="link_figure"><img alt="한국형 AI 모델 벤치마크 데이터셋 개요. 제미나이 생성" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/11/seouleconomy/20260611174128085xlhz.png" data-org-width="1200" dmcf-mid="KQkAHKKpCc" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/11/seouleconomy/20260611174128085xlhz.png" width="658"></p> <figcaption class="txt_caption default_figure"> 한국형 AI 모델 벤치마크 데이터셋 개요. 제미나이 생성 </figcaption> </figure> <p contents-hash="7445cdd7838697530c956ec10032f0c58734489a47d80cfaea7447cc8946b875" dmcf-pid="Vl0FxEEoSN" dmcf-ptype="general">인공지능(AI)의 한국어 문맥 이해 능력을 정밀하게 측정할 수 있는 새로운 공공 평가 체계가 나올 전망이다. 글로벌 벤치마크를 단순 차용하거나 오래된 기준을 재조합하던 방식에서 벗어나 고어와 방언을 포함해 한국 고유의 언어적·문화적 특성을 제대로 검증하겠다는 취지다. AI 에이전트 도입이 확산함에 따라 AI의 범용적 능력보다는 실제 업무 환경에서 얼마나 잘 활용될 수 있는지가 중요해졌기 때문이다.</p> <p contents-hash="71ec6dbd7244fcad71935cf0008ea5cc9e8b7b04dc48147562941ace5fb34dd8" dmcf-pid="fSp3MDDgya" dmcf-ptype="general">11일 정보기술(IT) 업계에 따르면 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 AI 모델 벤치마크 데이터셋 구축 사업을 진행 중이다. 이를 위해 최근 개발업체 등 사업자를 선정했으며 결과물 검증 등을 거쳐 올해 안에 프로젝트를 완료한다는 방침이다.</p> <p contents-hash="0b00c6f80f0f05ecd0a477dfab76195b92c9c794626337a5eca052edffaf3b03" dmcf-pid="4vU0Rwwayg" dmcf-ptype="general">벤치마크 데이터셋은 표준화된 문제와 평가 기준을 통해 동일한 조건에서 여러 AI 모델의 성능을 비교·검증하는 테스트베드 역할을 한다. 이번 사업은 AI 모델의 성능을 측정·비교하는 평가 기준(벤치마크)을 국내 맞춤형으로 고도화해 한국형 AI 모델의 글로벌 경쟁력을 확보하는 데 초점이 맞춰졌다. 그동안 국내 AI 벤치마크는 해외 유명 데이터셋을 한국어로 번역하거나 여러 해외 벤치마크를 한국 상황에 맞게 조합하는 수준에 머물렀다. 특히 법률·의료 등 전문 도메인이나 AI 안전성을 검증할 독자적인 평가 체계는 찾아보기 어려운 실정이다.</p> <p contents-hash="91500b2548d950f038ce9b37c31a7ae05b057f9e701ca593c7012c2e830472f9" dmcf-pid="8TuperrNho" dmcf-ptype="general">NIA 관계자는 “기존의 글로벌 벤치마크 평가 방식으로는 한국적 특성 및 한국의 언어·문화·사회적 맥락을 충분히 반영하지 못하는 한계가 있다”면서 “신뢰할 수 있는 성능 지표를 제공함으로써 한국형 AI 모델 도입·확산 생태계를 조성할 것”이라고 설명했다.</p> <p contents-hash="0389cb4c18ca988243a8081c792063981123e363ab605af7abdfa9481acc8bbf" dmcf-pid="6y7UdmmjhL" dmcf-ptype="general">NIA는 AI가 한국어의 복합적인 의미를 해석할 수 있는지 판별할 수 있는 독자 벤치마크를 개발하겠다는 구상이다. 이를 위해 데이터셋에는 중세, 근대 시대에 쓰이던 고어나 지역 사투리, 신조어 등을 포함할 방침이다. 한국어 문법은 물론 조선시대 문헌이나 지역별 사투리까지 넘나드는 고도의 추론·문제 해결 능력을 갖춰야 제대로 된 AI라는 판단에서다.</p> <p contents-hash="51bd54081dcc33678113a7fdd7641c6fd790adf16fc3cec3d122e60066cbc835" dmcf-pid="PmZHfaaeSn" dmcf-ptype="general">이처럼 새로운 벤치마크의 필요성이 커지고 있는 것은 AI 에이전트 시대를 맞아 AI 성능은 물론 활용도까지 중요해지고 있기 때문이다. 실제로 해외에선 MMLU-프로와 같은 기존 벤치마크가 변별력을 상실했다는 지적이 나왔다. MMLU는 범용 능력 벤치마크로 언어 이해, 지식 활용, 추론 능력 등을 폭넓게 측정한다. 글로벌 AI 전문 평가기관 아티피셜 애널리시스는 올해 들어 기존 평가 체계를 전면 개편하면서 MMLU-프로를 제외했다. 단순 정답률 중심 시험에서 벗어나 AI가 경제적 가치를 창출하는 업무를 수행할 수 있는지를 묻는 방향으로 기준이 바뀌었기 때문이다.</p> <p contents-hash="c372c7a512d8cfbd06ab97866a099ac9f8e08c76d18bbfde1806695474ff5488" dmcf-pid="Qs5X4NNdvi" dmcf-ptype="general">AI가 실제 환경에서 얼마나 유용하게 작동하는지 검증하는 목적 지향형 벤치마크도 늘어나는 추세다. AI 에이전트의 문제해결력을 평가하는 ‘에이전트벤치(AgentBench)’, 허위정보와 환각 생성 여부를 보는 ‘트루스풀QA(TruthfulQA)’, 사용자 지시 이행도를 측정하는 ‘IFEval’ 등이 대표적이다.</p> <p contents-hash="da96c6346fa7de7e2deb94968c4c8076a86a67b841ef30b4b41acdcb937b8574" dmcf-pid="xO1Z8jjJvJ" dmcf-ptype="general">김기혁 기자 coldmetal@sedaily.com</p> </section> </div> <p class="" data-translation="true">Copyright © 서울경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 커스텀 칩 투자의 배신···오라클 급락이 이재용에게 던진 경고 06-11 다음 티빙 유출 여파에 CJ 원 일부 계정 잠금…"고객정보 유출 없어" 06-11 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.