챗GPT에 1천번 물어도 비슷한 답변뿐...베이징대 연구진, 해결책 찾았다 작성일 11-24 43 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="PZ3M6hJ6kE"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="QpqLdYNdNk" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="ca4f4d570ce8b5df3c1725e26a2b8d45a033e3ac33313c6e4232256754351e29" dmcf-pid="xUBoJGjJcc" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/24/ZDNetKorea/20251124210415480ckuv.jpg" data-org-width="640" dmcf-mid="6yfcatwaAD" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/24/ZDNetKorea/20251124210415480ckuv.jpg" width="658"></p> </figure> <p contents-hash="ce605b2e0398d6ecdb06b8afb6dbe1d0ad7edd9941fd35345debeb918f0933be" dmcf-pid="yAwtXepXoA" dmcf-ptype="general">대규모 AI 언어모델이 JSON 같은 정해진 형식으로 답변을 만들 때, 문법적으로는 맞지만 비슷비슷한 답변만 반복한다는 문제가 새로운 연구로 확인됐다. 중국 베이징대 연구팀은 이 문제를 해결하기 위해 AI가 답변을 만드는 과정을 추적하고, 덜 사용된 답변 방식을 선택하도록 유도하는 새로운 방법을 개발했다. 이 기술은 답변의 다양성을 크게 높이면서도 처리 속도는 기존의 약 88% 수준을 유지했다.</p> <p contents-hash="1e8248a0b1f28ed1e79799fe5af55178e70a64ffac3ea10ee628f881d3770c9c" dmcf-pid="WcrFZdUZcj" dmcf-ptype="general"><strong>AI에게 1,000개 답변 요청했더니 전체 가능성의 20%만 사용</strong></p> <p contents-hash="3eec2dd77ae74f772c216a0666dbedb8aeaa791ebebb71005089b6fc2a401b4b" dmcf-pid="Ykm35Ju5oN" dmcf-ptype="general">해당 논문에 따르면, 연구팀은 현재 가장 많이 쓰이는 '아웃라인스'라는 AI 도구를 테스트했다. 이메일 주소와 웹 색상 코드를 만드는 규칙을 정해주고 각각 1,000개씩 답변을 요청했다. 그 결과 놀라운 사실이 드러났다. 이메일 주소의 경우 AI가 사용할 수 있는 전체 답변 방식 중 겨우 18.60%만 활용했고, 웹 색상 코드는 더 심각해서 16.96%만 사용했다.</p> <p contents-hash="7b54e332dbd3bcf637464a91a5bf614d89c272c13d99bc8f4e2c48b5f9dc2b8a" dmcf-pid="GEs01i71ga" dmcf-ptype="general">쉽게 말해 AI는 문법상 만들 수 있는 다양한 형태의 답변 중 극히 일부만 반복해서 생성했다는 의미다. 예를 들어 이메일 주소에서 큰따옴표를 사용하는 특별한 형식이나, 웹 색상에서 HSL이라는 표현 방식은 전혀 만들어지지 않았다. 연구팀이 AI의 창의성을 높이는 설정값을 조정해봤지만 상황은 크게 나아지지 않았다. 이메일 주소의 다양성이 23.26%로 약간 올랐을 뿐, 여전히 대부분의 가능한 형태는 사용되지 않았다.</p> <p contents-hash="002484339f20ead35bb50b61ba53ed97311a584b64468bf69124a8fd39427216" dmcf-pid="HDOptnztcg" dmcf-ptype="general"><strong>AI가 지나간 길을 기록해서 새로운 답변 방향으로 유도</strong></p> <p contents-hash="a17afb00d858331c745f9b2c70d98b62df3ab5c07779ed1da7a55e6ac96f6af4" dmcf-pid="XwIUFLqFNo" dmcf-ptype="general">연구팀이 만든 새로운 방법의 핵심은 AI가 답변을 만드는 과정을 계속 기록하고, 이 기록을 바탕으로 AI가 덜 사용한 방식을 선택하도록 유도하는 것이다. 구체적으로 AI가 답변을 만들 때 거쳐 간 모든 단계를 전체적으로 추적한다. 그리고 상대적으로 덜 사용된 경로에는 가산점을 주어 AI가 새로운 형태의 답변을 탐색하도록 돕는다.</p> <p contents-hash="5ef58b64789ea11a174f2b9dedaa529ae44bb55fccae6f9bd221c5c6da6fce7a" dmcf-pid="ZrCu3oB3NL" dmcf-ptype="general">하지만 단순히 가산점만 주면 AI가 같은 곳을 계속 맴돌며 끝없이 반복하는 문제가 생길 수 있다. 이를 막기 위해 연구팀은 한 번의 답변 생성 과정에서 각 단계를 얼마나 방문했는지도 별도로 기록했다. 그리고 자주 방문한 단계로 다시 가려는 선택에는 감점을 부여했다. 또한 상황에 따라 가산점과 감점의 강도를 자동으로 조절하는 장치도 추가해 지나친 조정을 방지했다.</p> <p contents-hash="e17ff576dd6af79307d7fa2515f342e210a72529a5abe61b38fd49798731f2c2" dmcf-pid="5mh70gb0an" dmcf-ptype="general"><strong>답변 다양성 최대 45% 향상, 처리 속도는 88% 유지</strong></p> <p contents-hash="3d446e0ce11716b97beb46a768e42c0021490243d0e02fc48f2d126d24ef95fc" dmcf-pid="1slzpaKpji" dmcf-ptype="general">연구팀은 이메일 주소, 웹 색상 코드, JSON 형식 데이터, 그리고 특정 단어를 피하는 답변 등 네 가지 규칙으로 새 방법을 시험했다. 큐웬2.5 모델을 사용해 각 규칙 당 1,000개씩 답변을 만든 결과, 기존 방법과 비교해 평균적으로 AI가 활용하는 답변 단계가 45%, 단계 간 이동 방식이 12%, 전체 답변 경로가 40% 증가했다.</p> <p contents-hash="59021887c0c1b2302d358c9ba21bd96355b387e88cc968bf8c1760f57ca7508c" dmcf-pid="tiaWS4XSaJ" dmcf-ptype="general">답변 내용의 다양성을 측정하는 '벤디 점수'라는 지표는 평균 90% 올랐다. 이메일 주소의 경우 활용 단계가 18.60%에서 95.35%로, 웹 색상 코드는 16.96%에서 62.49%로 대폭 증가했다. 특히 특정 단어를 피하는 규칙에서는 유효한 모든 답변 단계를 활용하는 데 성공했다. 이렇게 다양성이 크게 향상됐는데도 처리 속도는 기존 방법의 평균 88.8% 수준을 유지했다. 추가 계산 과정이 필요해 약간 느려졌지만, 다양성 향상을 고려하면 충분히 받아들일 만한 수준이다.</p> <p contents-hash="76d3ad60e264af6e41119cd303102f895d2ab7002afd9039516bfd0f41d1b581" dmcf-pid="FnNYv8ZvNd" dmcf-ptype="general"><strong>창의성 설정값 높여도 새 방법이 여전히 우수, 품질도 유지</strong></p> <p contents-hash="8354267ad2fe1257442482b185eb644166fde40496c05245bb12169d7f9610d5" dmcf-pid="3LjGT65Tge" dmcf-ptype="general">연구팀은 AI의 창의성을 높이는 설정값을 더 올린 상태에서도 추가 실험을 진행했다. 기존 방법의 다양성이 조금 나아지긴 했지만, 새 방법은 여전히 모든 측정 항목에서 앞섰다. 흥미롭게도 새 방법의 다양성 지표는 기본 설정 대비 약간 줄었는데, 이는 창의성 설정과 새 방법의 유도 장치가 서로 경쟁하기 때문이다.</p> <p contents-hash="2d8d006286967aac1dcbcd586e45d192f2c171c6fe0b4540339ec37151348af0" dmcf-pid="0oAHyP1yAR" dmcf-ptype="general">답변 품질 측면에서도 중요한 발견이 있었다. 특정 단어를 피하는 규칙으로 만든 답변의 자연스러움을 분석한 결과, 창의성 설정을 높였을 때 기존 방법은 답변이 매우 부자연스러워졌지만, 새 방법은 기본 설정에서 다양성과 자연스러움의 더 나은 균형을 보여줬다.</p> <p contents-hash="6dd37a2f9672ab585cc4b248a115451b610bb05efe695ce04e42b1dab8434481" dmcf-pid="pgcXWQtWoM" dmcf-ptype="general">각 구성 요소의 역할을 분석한 결과, 세 가지 핵심 장치(가산점, 감점, 자동 조절)가 모두 중요한 역할을 했다. 가산점을 제거하자 성능이 기존 방법보다 낮아졌고, 감점을 제거하면 답변 생성 과정이 불안정해져 제대로 된 답변을 거의 만들지 못했다.</p> <p contents-hash="fae0fb0c3ddf94ca5d46df839cc828deace1e9fedf6e28f028940b2a662471e5" dmcf-pid="UakZYxFYkx" dmcf-ptype="general"><strong>실제 소프트웨어 테스트에서 검증 범위 최대 13% 확대</strong></p> <p contents-hash="74b7422b8f59a20b88121bb16d631370dd6e1b4a50235431188ecd14cc4db347" dmcf-pid="uNE5GM3GoQ" dmcf-ptype="general">연구팀은 실제 활용 사례로 오픈소스 프로그램 라이브러리를 테스트하는 실험을 진행했다. 이메일 검증 프로그램과 웹 색상 변환 프로그램을 대상으로 생성된 테스트 데이터가 프로그램 코드를 얼마나 검증하는지 측정했다. 새 방법으로 만든 테스트 데이터는 이메일 검증 프로그램에서 46.19%에서 59.08%로 약 13%p 향상됐고, 웹 색상 변환 프로그램에서는 78.04%에서 83.18%로 약 5%p 상승했다.</p> <p contents-hash="5e1440fdfaf340db67fc1cba6bd3326fbc72b88bf6c103dff3b1df9a47790541" dmcf-pid="7jD1HR0HkP" dmcf-ptype="general">이는 다양한 형태를 포함하는 테스트 데이터가 소프트웨어의 더 많은 부분을 실행하고 잠재적 오류를 발견하는 데 효과적임을 입증한다. 예를 들어 규칙상으로는 맞지만 프로그램의 기본 설정에서는 허용하지 않는 특별한 이메일 형식을 생성함으로써 예외 처리 기능을 테스트할 수 있었다.</p> <p contents-hash="61b42dc6589382f1ae3e287687c54d9b5e9c2851b4f633085aeb635a1677e553" dmcf-pid="zAwtXepXo6" dmcf-ptype="general"><strong>FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="beedeed9fedbd38b97cc488d3b994fa3578e993a9d22aa155e473be98fcfa9c9" dmcf-pid="qcrFZdUZj8" dmcf-ptype="general"><strong>Q1. 정형화된 답변 생성이란 무엇이며 왜 중요한가요?</strong></p> <p contents-hash="b9b892afa2c74f3fb5efa4c998d84a1ac61eb78a2eee4383f50ce9755c3c04ec" dmcf-pid="Bkm35Ju5a4" dmcf-ptype="general">A: 정형화된 답변 생성은 AI가 JSON, XML 같은 정해진 형식을 따르는 답변을 만들도록 강제하는 기술입니다. 자율 AI 시스템이나 자동화 프로그램에서 AI 답변을 처리하려면 정확한 형식이 필수적이기 때문에 중요합니다.</p> <p contents-hash="ab921e815a6c945cb8d90321dfb773a088c9a1f10a54363050149710ba721928" dmcf-pid="bEs01i71Nf" dmcf-ptype="general"><strong>Q2. 기존 방법의 답변이 비슷비슷한 이유는 무엇인가요?</strong></p> <p contents-hash="b548aa4bcf5daea6cb359789239daa04ed93efa5ae07c56cc89707507db3cd44" dmcf-pid="KDOptnztoV" dmcf-ptype="general">A: AI는 학습한 데이터를 바탕으로 단어를 예측하므로 자연어에서 흔한 패턴을 선호합니다. 문법적으로는 맞지만 드문 형태는 학습 데이터에 적게 등장해 거의 생성되지 않습니다. 기존 방법은 문법만 검사할 뿐 다양성을 높이지 않습니다.</p> <p contents-hash="de541d705fa79fdb75b7abd04ca83e56524c6259ae9049820323653c96c810c3" dmcf-pid="9wIUFLqFj2" dmcf-ptype="general"><strong>Q3. 이 새로운 방법을 실제로 어떻게 활용할 수 있나요?</strong></p> <p contents-hash="0a46c5c2860d57f391dea10061855bc789371d4519f80d111a081cb657286831" dmcf-pid="2gcXWQtWA9" dmcf-ptype="general">A: 소프트웨어 테스트에서 다양한 특수 상황을 포함하는 테스트 데이터를 자동으로 만들거나, 자율 AI 시스템이 다양한 행동 계획을 수립하도록 돕는 데 활용할 수 있습니다. 또한 기계학습 학습용 데이터 확보에도 유용합니다.</p> <p contents-hash="b6969d64d0785c0f665c01b521fbe48440a4af005409def0318be1c86d05e35e" dmcf-pid="VakZYxFYoK" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="bd178a0f805bb85f482a2a19cbab09403eb053448211512567f29b2cccd8355b" dmcf-pid="fNE5GM3Gcb" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p> 관련자료 이전 "K-문샷 프로젝트 내년 시동…연구개발 생태계 75개 항목 혁신" 11-24 다음 강원도청 수영팀, 꿈나무들과 뜻깊은 시간 11-24 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.