AI에 가정교사 붙여 학습 강화...KAIST, 강화학습 프레임워크 'TVKD' 개발 작성일 12-17 12 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="01txL8YCwU"> <figure class="figure_frm origin_fig" contents-hash="da105bbae6c7d0732db93b73b48d6cede9857752adbe4fc56532493bd183a773" dmcf-pid="ptFMo6GhIp" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST가 제안한 TVKD 연구 개념도. 인간 선호 데이터셋을 교사 모델에게 가르친 뒤, 학생 모델에게 교사 정보와 데이터셋을 전달해 학습을 진행한다." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/17/etimesi/20251217133902359gavb.jpg" data-org-width="700" dmcf-mid="F7IUe9SrwV" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/17/etimesi/20251217133902359gavb.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST가 제안한 TVKD 연구 개념도. 인간 선호 데이터셋을 교사 모델에게 가르친 뒤, 학생 모델에게 교사 정보와 데이터셋을 전달해 학습을 진행한다. </figcaption> </figure> <p contents-hash="40e2c0044b65a4a55a7e424e0f339085a5149a121b88b78f70a4a0653ddf5f16" dmcf-pid="UF3RgPHls0" dmcf-ptype="general">한국과학기술원(KAIST·총장 이광형) 연구진이 인공지능(AI)에 '가정교사'를 붙이는 방식으로, 적은 데이터에서도 사람 선호를 정확히 배우는 새로운 학습 해법을 제시했다.</p> <p contents-hash="d176ead1e8c5d8bea06993c453c4ac1c8508d982c86f4e0e20f8929ccc155006" dmcf-pid="uTy9QqIkr3" dmcf-ptype="general">KAIST는 김준모 전기 및 전자공학부 교수팀이 인간 선호를 효과적으로 반영하면서 데이터 효율성과 학습 안정성을 크게 향상시킨 강화학습 프레임워크 'TVKD(Teacher Value-based Knowledge Distillation)'를 개발했다고 17일 밝혔다.</p> <p contents-hash="8b592f38d4a12de2fd9e68dd279ebd5190b0aa2c7b5c593cab474a43e541a4f3" dmcf-pid="7yW2xBCEIF" dmcf-ptype="general">기존 AI 학습 방식은 “A가 B보다 낫다”는 식의 단순 비교 데이터를 대량 수집·학습하는 구조로, 많은 데이터가 필요하고 판단이 애매한 상황에서는 AI가 혼란에 빠지기 쉽다.</p> <p contents-hash="2eab965788978e65da16e217599356edf1c1331472117794c73cb755a392e398" dmcf-pid="zWYVMbhDst" dmcf-ptype="general">연구팀은 사람의 선호를 먼저 깊이 이해한 '교사 모델'이 그 핵심 정보만을 '학생 모델'에 전달하는 방식을 제안했다. 복잡한 내용을 정리해 가르치는 가정교사에 비유할 수 있다. 연구팀은 이를 '선호 증류'라고 명명했다.</p> <p contents-hash="4f1bfbd198df7c2574a91c223789e6ed992e5f5921c5360037e66b92a71624eb" dmcf-pid="qYGfRKlwr1" dmcf-ptype="general">가장 큰 기술 특징은 단순히 각 상황이 얼마나 가치 있는지를 수치적으로 판단하는 '가치 함수'를 교사 모델이 학습한 뒤 학생 모델에 전달하도록 설계했다는 점이다.</p> <p contents-hash="8774d239ff793453ed92f140fc432e0d3fa1e60d452d5952332fff1016fd5db4" dmcf-pid="BGH4e9Srw5" dmcf-ptype="general">이를 통해 AI는 애매한 상황에서도 단편적인 비교가 아닌, '이 선택이 왜 더 나은지'를 종합적으로 판단하며 학습할 수 있다.</p> <p contents-hash="eeb3e5e61cb4e472363897561908193aa671312fd9acbd2841eb81ef79a562f2" dmcf-pid="bHX8d2vmDZ" dmcf-ptype="general">개발 기술은 문맥 전체를 고려한 가치 판단을 학생 모델에 반영함으로써, 단편적인 답변이 아닌 전체 흐름을 이해하는 학습이 가능하다. 또 선호 데이터의 신뢰도에 따라 학습 중요도를 조절하는 기법을 도입했다. 명확한 데이터는 학습에 크게 반영하고, 모호하거나 잡음이 섞인 데이터는 영향력을 줄여 현실적인 환경에서도 AI가 안정적으로 학습할 수 있도록 했다.</p> <p contents-hash="221c5a64ef97f4f61924217c0550da3338dbc63b219d4d56c5cd0a228e874507" dmcf-pid="KXZ6JVTsOX" dmcf-ptype="general">이 기술을 여러 AI 모델에 적용·실험한 결과, 기존 가장 성능이 좋다고 알려진 방법들보다 더 정확하고 안정적인 성능을 보였다. 엠티-벤치(MT-Bench), 알파카-이밸(AlpacaEval) 등 주요 평가 지표에서 기존 최고 기술을 앞섰다.</p> <p contents-hash="25ab6f56280c5eea5c3975ff82eb3dcc34924f919c02ce212210b74515ed0578" dmcf-pid="9Z5PifyOmH" dmcf-ptype="general">김준모 교수는 “현실에서는 사람의 선호 데이터가 항상 충분하거나 완벽하지 않다”며 “이번 기술은 그런 제약 속에서도 AI가 일관되게 학습할 수 있게 해, 다양한 분야에서 실용성이 매우 높을 것”이라고 말했다.</p> <p contents-hash="0fe09b884d1b2609b5bffaaa13b1f28835e6092706e20f7995f51e7fd738b9f4" dmcf-pid="251Qn4WIDG" dmcf-ptype="general">권민찬 KAIST 전기 및전 자공학부 박사과정이 제1저자로 참여한 이번 연구 성과는 '신경정보처리시스템학회(NeurIPS) 2025'에 채택됐다. 지난 3일 포스터 세션에서 발표됐다.</p> <p contents-hash="442c48453aac20e3849fdc62f0b5f894f8e2e1b71a6d5b87b511f8166a9b5101" dmcf-pid="V1txL8YCrY" dmcf-ptype="general">김영준 기자 kyj85@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 ‘미스트롯4’ 양지은, ‘봉천동 김수희’ 노래에 폭풍 눈물 12-17 다음 “이게 무슨 글씨야?” 고등학생이 악필로 푼 미적분...AI가 7초 만에 채점 12-17 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.