내 취향, ‘기가 막히게’ 맞추는 AI 나온다 작성일 12-17 27 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">- KAIST 전기및전자공학부 김준모 교수팀 <br>- 사람 선호 정확히 배우는 AI 학습 기술</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Wj7i3Klwtg"> <figure class="figure_frm origin_fig" contents-hash="1576885289738e18e970388ce98ba754957cc125d5622cd1ca6810997f2d5582" dmcf-pid="Yw9Nz8YCHo" dmcf-ptype="figure"> <p class="link_figure"><img alt="인간 선호 데이터셋을 교사 모델에게 가르친 뒤, 학생 모델에게 교사 정보와 데이터셋을 전달하여 학습을 진행한다.[KAIST 제공]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/17/ned/20251217084105021qsqb.jpg" data-org-width="1280" dmcf-mid="7cRO6npXYl" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/17/ned/20251217084105021qsqb.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 인간 선호 데이터셋을 교사 모델에게 가르친 뒤, 학생 모델에게 교사 정보와 데이터셋을 전달하여 학습을 진행한다.[KAIST 제공] </figcaption> </figure> <p contents-hash="235b3a16dbde640a20c0c477aaf9abb53bc14396a0b7fb399e46822b8a2910ed" dmcf-pid="Gr2jq6GhtL" dmcf-ptype="general">[헤럴드경제=구본혁 기자] 아무리 많은 데이터를 학습해도, 인공지능(AI)은 왜 사람의 의도를 자주 빗나갈까? 사람의 선호를 이해시키기 위한 비교 학습은 오히려 AI를 혼란스럽게 만드는 경우도 적지 않았다. 국내 연구진이 AI에게 ‘가정교사’를 붙이는 방식으로, 적은 데이터에서도 사람의 선호를 정확히 배우는 새로운 학습 해법을 제시했다.</p> <p contents-hash="0314feab5b0a856ba56f47dffeb6ab549a29c5a3cddd77a560157a20834a3c18" dmcf-pid="HmVABPHltn" dmcf-ptype="general">KAIST는 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를 효과적으로 반영하면서도 데이터 효율성과 학습 안정성을 크게 향상시킨 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다.</p> <p contents-hash="e7a2c5d4fa2785550f5b2f7ad2c754869d2e7bbfe625846deb043230e94a67a3" dmcf-pid="XsfcbQXSHi" dmcf-ptype="general">기존 인공지능 학습 방식은 “A가 B보다 낫다”는 식의 단순 비교(preference comparison) 데이터를 대량으로 수집해 학습하는 구조였다. 이 방식은 많은 데이터가 필요하고, 판단이 애매한 상황에서는 AI가 혼란에 빠지기 쉽다는 한계가 있었다.</p> <p contents-hash="c48d29c92a0751959559d97bfddfa2edde0ea16e1900021797e4645e534e6e25" dmcf-pid="ZO4kKxZvGJ" dmcf-ptype="general">연구팀은 이러한 문제를 해결하기 위해, 사람의 선호를 먼저 깊이 이해한 ‘교사(Teacher) 모델’이 그 핵심 정보만을 ‘학생(Student) 모델’에게 전달하는 방식을 제안했다.</p> <p contents-hash="f6ba1036977c6d11cdff81e2a7e770f3aa3b97b828f9bd844bf2a6952f7b203a" dmcf-pid="5I8E9M5T5d" dmcf-ptype="general">이는 복잡한 내용을 정리해 가르치는 가정교사에 비유할 수 있으며, 연구팀은 이를 ‘선호 증류(Preference Distillation)’라고 명명했다.</p> <p contents-hash="74546019ccb3b190abcbcbc6f48463f60f0557dd704f258f8ab0b7820e795dd6" dmcf-pid="1C6D2R1yXe" dmcf-ptype="general">이번 기술의 가장 큰 특징은 단순히 ‘좋다·나쁘다’를 흉내 내는 것이 아니라, 각 상황이 얼마나 가치 있는지를 수치적으로 판단하는 ‘가치 함수(Value Function)’를 교사 모델이 학습한 뒤 이를 학생 모델에 전달하도록 설계했다는 점이다.</p> <p contents-hash="df34f86226de14a3d6bb054c14ee1ec9c272f1489a7c3fc8bde8c6a76c40e4d6" dmcf-pid="thPwVetWGR" dmcf-ptype="general">이를 통해 AI는 애매한 상황에서도 단편적인 비교가 아닌, ‘이 선택이 왜 더 나은지’를 종합적으로 판단하며 학습할 수 있다.</p> <p contents-hash="4b7552336dbde962991f10a51c86fdbdd426610ff6faa2d850568e5d69830d3e" dmcf-pid="FlQrfdFY1M" dmcf-ptype="general">이번 기술의 핵심은 크게 두 가지다. 첫째, 문맥 전체를 고려한 가치 판단을 학생 모델에 반영함으로써, 단편적인 답변이 아닌 전체 흐름을 이해하는 학습이 가능해졌다. 둘째, 선호 데이터의 신뢰도에 따라 학습 중요도를 조절하는 기법을 도입했다.</p> <p contents-hash="0946b04dbb0426f83ecafea48fa0274a4b0c8cdf5b708d197dfa66de2eff7b15" dmcf-pid="3QY2S5jJtx" dmcf-ptype="general">명확한 데이터는 학습에 크게 반영하고, 모호하거나 잡음이 섞인 데이터는 영향력을 줄여 현실적인 환경에서도 AI가 안정적으로 학습할 수 있도록 했다.</p> <figure class="figure_frm origin_fig" contents-hash="ddcdb5e577c8282de21fc7a1da00feacce3a78e7c871c605ca14a3776aa13a87" dmcf-pid="0xGVv1AitQ" dmcf-ptype="figure"> <p class="link_figure"><img alt="이번 연구를 수행한 김준모(왼쪽 원 안) KAIST 교수와 권민찬 박사과정.[KAIST 제공]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/17/ned/20251217084105278akpu.jpg" data-org-width="1280" dmcf-mid="yjuJFbhDYa" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/17/ned/20251217084105278akpu.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 이번 연구를 수행한 김준모(왼쪽 원 안) KAIST 교수와 권민찬 박사과정.[KAIST 제공] </figcaption> </figure> <p contents-hash="2e290e00997920466b1bd98d14c63644491786965fd007064ad77703d78a415a" dmcf-pid="pMHfTtcnHP" dmcf-ptype="general">연구팀이 이 기술을 여러 AI 모델에 적용해 실험한 결과, 기존 가장 성능이 좋다고 알려진 방법들보다 더 정확하고 안정적인 성능을 보였다. 특히 엠티-벤치(MT-Bench), 알파카-이밸(AlpacaEval) 등 주요 평가 지표에서 기존 최고 기술을 안정적으로 앞서는 성과를 기록했다.</p> <p contents-hash="d494689d14c6dcf86ad5e279107f2673af21f1e8e8bfff74a4fbe0dd837c4cbc" dmcf-pid="URX4yFkLZ6" dmcf-ptype="general">김준모 교수는 “현실에서는 사람의 선호 데이터가 항상 충분하거나 완벽하지 않다”며 “이번 기술은 그런 제약 속에서도 AI가 일관되게 학습할 수 있게 해, 다양한 분야에서 실용성이 매우 높을 것”이라고 말했다.</p> <p contents-hash="8dc1ede7eb4267106db02e68ad2668fb69bf2fd2a9391457cfb6ebea1d414c37" dmcf-pid="ueZ8W3EoH8" dmcf-ptype="general">이번 연구성과는 국제 인공지능 분야 최고 권위 학회인 ‘신경정보처리시스템학회(NeurIPS) 2025’에 채택됐다</p> </section> </div> <p class="" data-translation="true">Copyright © 헤럴드경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 아이폰 폴드, 유튜브 보기 더 좋다? 세로보다 가로가 긴 화면 탑재할 듯[모닝폰] 12-17 다음 국민 10명 중 9명 “쿠팡 대표 교체 부적절” 12-17 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.