KT '믿:음 2.0 Base', 한국어 AI 성능 평가서 국내 1위 작성일 07-09 5 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">국산 기술력 기반의 한국어 AI 모델로서 실질적 경쟁력 입증</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="fLlPf2tsib"> <p contents-hash="5f330d3f8d46295f314b0bbfc35949245b5aa2cf00dc999af1bd54dffdf47faa" dmcf-pid="4oSQ4VFOMB" dmcf-ptype="general">(지디넷코리아=박수형 기자)KT가 한국적 AI를 표방하며 자체 개발한 ‘믿:음 2.0’이 한국어 LLM 성능 평가 플랫폼 호랑이(Horangi) 리더보드에서 국내 1위를 기록했다.</p> <p contents-hash="8ab5c0051ddd0d694855605f307e7fb9638b85809b833c71d1395e6565021761" dmcf-pid="8gvx8f3IRq" dmcf-ptype="general">KT는 지난 4일 공개한 믿:음 2.0 Base가 한국어 LLM 평가 지표 ‘호랑이 리더보드3’에서 파라미터 수 150억 개 미만의 국내 기업 개발 모델 가운데 종합 성능 1위를 기록했다고 밝혔다.</p> <p contents-hash="dc8394d2ae24a6cebbced462af499ee67a862ed38eab53a9da9e529af6c206c6" dmcf-pid="6aTM640CMz" dmcf-ptype="general">믿:음 2.0 Base의 종합 점수는 0.7197(▲범용 성능 0.7004 ▲응답 정렬 성능 0.739)로 전세계 동급 모델 중에서는 3위에 해당하는 우수한 성과다.</p> <p contents-hash="08d2b8c2d4c6a772e07a71bcc85f216afe54ed3e7a0065f06d02ad44456a46fa" dmcf-pid="PNyRP8phn7" dmcf-ptype="general">호랑이 리더보드는 글로벌 MLOps 기업 웨이트앤바이어스(W&B)가 주관하는 한국어 특화 LLM 평가 벤치마크다. 실제 한국어 환경에서의 범용적인 언어 이해력과 응답 안전성을 포함하는 정렬성(Alignment) 등 한국어 LLM의 실용적인 역량을 다면적으로 평가한다.</p> <figure class="figure_frm origin_fig" contents-hash="07cbbf0ecf1b1a25f206e853554939fe7171999f297fa859b1924e7859156f4d" dmcf-pid="QRm2BzGkMu" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/09/ZDNetKorea/20250709122734130fojd.jpg" data-org-width="639" dmcf-mid="Vlju3thLJK" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/09/ZDNetKorea/20250709122734130fojd.jpg" width="658"></p> </figure> <p contents-hash="545994748e0d2af1a7a7251f823edf5c114da0a13dbb95902cde79dd20808dfa" dmcf-pid="xesVbqHEJU" dmcf-ptype="general">단편적인 지식을 묻는 질문에 대한 답변 정확성을 평가하는 기존 벤치마크와 달리 작문, 추론, 정보 추출 등 실생활 시나리오를 기반으로 평가해 모델의 실용적 능력을 평가하는 지표로 주목받고 있다.</p> <p contents-hash="d0340bedb32f170d5e80744c7731d3388ebb697b4525bf972f01d0afa21b6742" dmcf-pid="yG9IrDdzLp" dmcf-ptype="general">특히 한국어 고유의 문맥, 표현, 사회적 맥락 등을 반영한 응답인지를 평가한다는 점에서 국내 시장에서의 실효성을 가늠하는 데 중요한 기준으로 꼽힌다.</p> <p contents-hash="a443fda88e989483382ee715bcad99cad923a91d3c5179ce654e16b672d706ba" dmcf-pid="WH2CmwJqL0" dmcf-ptype="general">평가 결과는 W&B가 운영하는 WanDB 플랫폼을 통해 투명하게 공개되어 누구나 직접 검증할 수 있다.</p> <p contents-hash="c8a37fbb7e90635c2164c9fe2f89be03773556374924f351fac27662f733fa02" dmcf-pid="YXVhsriBi3" dmcf-ptype="general">KT는 이 성과로 믿:음 2.0이 국산 기술력 기반의 한국어 AI 모델로서 실질적 경쟁력을 갖추었음을 객관적으로 입증했다고 설명했. KT는 믿:음 2.0을 개발하며 한국의 정신과 생활방식, 지식과 사회적 맥락을 반영하여 한국에 가장 잘 맞는 AI로 학습시켰다.</p> <p contents-hash="6e7ebc253ab1fffefc5503f84205b8fb53c530b0c60db5faf56ca251915aa0fe" dmcf-pid="GZflOmnbLF" dmcf-ptype="general">무엇보다 믿:음 2.0은 외산 모델을 기반으로 단순 튜닝하는 방식이 아닌, 아키텍처 설계부터 데이터 구축, 학습까지 전 과정을 KT가 직접 수행하는 ‘프롬 스크래치(From scratch)’ 방식으로 개발한 순수 자체 개발 모델이라는 점에서도 기술적 의미가 크다.</p> <p contents-hash="0071922e1b66699d241cd0ebc6fb3a41ced08abe33e7b5303a59b61fb7cc3f0d" dmcf-pid="H54SIsLKLt" dmcf-ptype="general">신동훈 KT Gen AI Lab장(CAIO)은 “믿:음 2.0을 국내 다양한 산업 분야에 적용해 ‘한국적 AI’의 시장 확산에 본격적으로 나설 것”이라며 “한국적 AI의 실용화와 기술 발전을 이끄는 핵심 주체로 자리매김하겠다”고 말했다.</p> <p contents-hash="0e227667f1c005b9b9784ce0a6b111046221f4aa6e3d650730789cae0fb9c2b2" dmcf-pid="X18vCOo9d1" dmcf-ptype="general">한편, KT는 믿:음 2.0 기반의 맞춤형 B2B AI 솔루션을 산업 전반에 제공하고 공공, 금융, 교육, 법률 분야에서 실증을 추진한다. 현재 공개된 버전에서 성능을 더 높인 믿:음 2.0 Pro 공개도 준비하고 있다. 믿:음 2.0의 추론, 멀티모달 기능 확장과 함께 국산 AI 반도체 기업 리벨리온과의 협력을 통한 AI 생태계 강화 등도 계획 중이다.</p> <p contents-hash="2ec6e84be0a7771e12e04f3e90450f26741b676b89ee5c955d1f148f8ca69288" dmcf-pid="Zt6ThIg2e5" dmcf-ptype="general">박수형 기자(psooh@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p> 관련자료 이전 '미스터트롯3' 문자 투표 수익금 8840만원 전액 기부 07-09 다음 반창고처럼 피부에 붙이는 혈압 측정 소자 개발 07-09 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.