S2W, LLM 토크나이저 취약성 규명 논문 EMNLP 2025 채택 작성일 11-10 37 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">비영어권서 토크나이저 불완전 토큰이 환각 유발…소버린 AI 논의에 시사점 제공</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Z8szrciPj4"> <p contents-hash="fb44c3c6cf629235891a82d427ae90a47b70cde45ab1f84883da5b44c62a4903" dmcf-pid="56OqmknQof" dmcf-ptype="general">(지디넷코리아=남혁우 기자)<span> 에스투더블유(S2W)와 KAIST 공동연구팀의 대규모언어모델(LLM) 토크나이저 취약성 규명 논문이 세계 최고 권위 자연어처리 학회인 EMNLP 2025에 채택됐다.</span></p> <p contents-hash="a38d80686430f1e7a8a92f91e05df0db8360439e56e8db4a4429b653f5c1e7cd" dmcf-pid="1PIBsELxNV" dmcf-ptype="general">에스투더블유와 한국과학기술원(KAIST) 연구진은 2025년 EMNLP에 논문을 게재한다고 10일 밝혔다.</p> <p contents-hash="50276f3ccd5a96109435204d661c8bed150a592d07256916e707c3eb9e55eac6" dmcf-pid="tQCbODoMc2" dmcf-ptype="general">이번 채택으로 에스투더블유는 글로벌 최고 권위 AI 학회에 4년 연속 논문을 등재하는 성과를 거뒀다.</p> <figure class="figure_frm origin_fig" contents-hash="fe0f58f0727ddc68e0ee2b501b78e0162ffc52fe93c0350fb38de9f3995f0750" dmcf-pid="FxhKIwgRo9" dmcf-ptype="figure"> <p class="link_figure"><img alt="에스투더블유, LLM 토크나이저 취약성 규명 연구로 세계 최고 권위 AI 학회 ‘EMNLP 2025’ 논문 채택(이미지=에스투더블유)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/10/ZDNetKorea/20251110170654480zbhv.jpg" data-org-width="638" dmcf-mid="XXbcqpHlk8" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/10/ZDNetKorea/20251110170654480zbhv.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 에스투더블유, LLM 토크나이저 취약성 규명 연구로 세계 최고 권위 AI 학회 ‘EMNLP 2025’ 논문 채택(이미지=에스투더블유) </figcaption> </figure> <p contents-hash="44de88f30ae97f20167b7046d3b024d1358df6e78b5171d751d93adaba7e134d" dmcf-pid="3Ml9CraekK" dmcf-ptype="general">'비정상적 단어쌍을 통해 드러난 바이트 단위 토크나이저의 불완전 토큰 취약성'라는 제목의 이번 <span>논문은 대규모언어모델(LLM) 내부의 토크나이저 구조가 환각(hallucination)을 유발할 수 있음을 실험적으로 </span><span>규명한 내용이다. </span></p> <p contents-hash="fe58d13b19810cc1e8f04183d9a4d069ac9000b0555b2dfad96aeb698c5c8b87" dmcf-pid="0RS2hmNdjb" dmcf-ptype="general">연구진은 특히 바이트 단위로 문자를 분해·처리하는 바이트 레벨 토크나이저에서 '불완전 토큰'이 생성되는 과정을 분석했다. <span>불완전 토큰은 문자 경계가 잘려 의미가 온전하게 보존되지 않은 토큰을 뜻한다.</span></p> <p contents-hash="a371ac7f058b59b4902b84a85badf8066e6372bce77b42b51e50f1f88c082d86" dmcf-pid="pevVlsjJAB" dmcf-ptype="general">연구 결과에 따르면 불완전 토큰은 비정상적 바이그램(improbable bigram) 패턴을 만들어낸다. <span>이런 패턴은 모델이 문맥을 잘못 복원하게 하고, 궁극적으로 사실과 다른 내용을 생성하는 환각으로 이어질 수 있다.</span></p> <p contents-hash="65f82b6fd69d4fda29dddc499b96a8604865a2ebfaeb6dd819748683617a0871" dmcf-pid="UdTfSOAiAq" dmcf-ptype="general">영어는 문자당 1바이트로 표현되지만 한국어·일본어·중국어 등은 한 글자가 여러 바이트로 표현된다. <span>이로 인해 바이트 페어 인코딩(BPE) 기반 토크나이저는 비영어권 언어에서 불완전 토큰을 더 자주 생성하는 경향을 보였다.</span></p> <p contents-hash="f14ec73387a57979b61e38a61991c818271176d19a97d97bb7e6f8931b4d51cb" dmcf-pid="uOqj73YCaz" dmcf-ptype="general">에스투더블유 공동저자이자 최고기술책임자(CTO)인 박근태 연구원은 "이번 논문은 소버린 AI 논의에 중요한 시사점을 준다"며 "토크나이저가 자국어를 안정적으로 처리하지 못하면 자국어 기반 AI 모델의 신뢰성을 확보하기 어렵다"고 설명했다.</p> <p contents-hash="63cb297549d56fb265b9e537beb8f32619e3cae005bcd9d13ba0e8702e5c66df" dmcf-pid="7IBAz0Gho7" dmcf-ptype="general">박 CTO는 이어 "S2W는 신뢰할 수 있는 AI를 만들기 위한 선도적 연구를 지속 창출할 것"이라고 덧붙였다.</p> <p contents-hash="c0988d9af80b8e94bebfeca2ed790c9b3459d3a8eb3f83f0c7bc3979eada3cc4" dmcf-pid="zCbcqpHlNu" dmcf-ptype="general">에스투더블유는 2022년 다크웹 언어 관련 연구, 2023년 다크버트(DarkBERT) 관련 ACL 채택, 2024년 자체 개발 사이버보안 문서 특화 모델 '사이버튠(CyBERTuned)' 관련 NAACL 발표 등으로 학계와 산업계에서 연속적인 연구 성과를 쌓아왔다.</p> <p contents-hash="72e19df63a0c12c11ea4ce1fe64c421e3b715298d398abe88757f550820f7e65" dmcf-pid="qhKkBUXSNU" dmcf-ptype="general">이번 연구는 특히 비영어권 사용자 경험과 모델 신뢰성 개선, 국가 차원의 AI 정책과 데이터 전략 수립에 활용될 수 있다는 점에서 의미가 크다.</p> <p contents-hash="a940176fd847aa1098d1c4fd3630d86912b6d08e478bec18e7f73024ab3b119d" dmcf-pid="Bl9EbuZvap" dmcf-ptype="general">연구진은 향후 토크나이저 설계 개선 방안과 언어별 전처리 기법 보완을 통한 환각 저감 연구를 계속해 나갈 계획이라고 밝혔다.</p> <p contents-hash="491a4190815e48af7e384be540c127fa95c112f388675b6ed93d88d1bc95cbb0" dmcf-pid="bS2DK75To0" dmcf-ptype="general">남혁우 기자(firstblood@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p> 관련자료 이전 [기획]안전강화 대용량 UPS, 2027년 개발 완료…국산화 시동 건다 11-10 다음 수능보는 국가대표…대한체육회, 올해도 학생선수 격려행사 “너희 꿈을 응원해” 11-10 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.