"AI의 과학논문 요약 믿을 수 없어…과도한 일반화 편향 많아" 작성일 05-14 6 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">국제 연구팀 "챗GPT·딥시크 등 챗봇, 최대 73%서 부정확한 결론 도출"</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="fnT9KXxp1N"> <p contents-hash="4e0eed4b3875b4bb638f081e31dc8c6d7aad90d47c7664480b5b2c5215f0d7ff" dmcf-pid="4Ly29ZMU5a" dmcf-ptype="general">(서울=연합뉴스) 이주영 기자 = 일반인들이 많이 사용하는 인공지능(AI)의 편리한 기능 중 하나가 요약이다. 하지만 챗GPT와 딥시크 등 유명 AI 챗봇의 과학 논문 요약 분석 결과 최대 70% 이상에서 과도한 편향이 발생하는 것으로 나타났다.</p> <figure class="figure_frm origin_fig" contents-hash="3150070edd5100ab9ca4f8305736f7753926abb7af7667ae33e033651d16f325" dmcf-pid="8UivSN5rHg" dmcf-ptype="figure"> <p class="link_figure"><img alt="AI 챗봇 챗GPT와 딥시크 시간이 부족할 때 챗GPT(ChatGPT)나 딥시크(DeepSeek) 같은 거대언어모델(LLM) 기반 인공지능(AI) 챗봇의 과학 논문 요약 기능을 이용하면 매우 편리해 보이지만, 연구 결과 최대 73%에서 과도한 일반화에 의한 부정확한 결론 도출이 일어나는 것으로 나타났다. [Royal Society Open Science, Uwe Peters et al. 제공. 재판매 및 DB 금지]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/14/yonhap/20250514093436448irob.jpg" data-org-width="770" dmcf-mid="VbOuUvVZ5j" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/14/yonhap/20250514093436448irob.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> AI 챗봇 챗GPT와 딥시크 시간이 부족할 때 챗GPT(ChatGPT)나 딥시크(DeepSeek) 같은 거대언어모델(LLM) 기반 인공지능(AI) 챗봇의 과학 논문 요약 기능을 이용하면 매우 편리해 보이지만, 연구 결과 최대 73%에서 과도한 일반화에 의한 부정확한 결론 도출이 일어나는 것으로 나타났다. [Royal Society Open Science, Uwe Peters et al. 제공. 재판매 및 DB 금지] </figcaption> </figure> <p contents-hash="618764fc3bc8c2e15265475685a7ace541905d5cdd0c444fe8930365a0bc5450" dmcf-pid="6unTvj1mYo" dmcf-ptype="general">네덜란드 위트레흐트대 우베 페터스 박사와 캐나다 웨스턴대 및 영국 케임브리지대 벤저민 친이 교수팀은 14일 거대언어모델(LLM) 기반 유명 AI 챗봇 10개가 생성한 과학 요약문을 분석한 결과 최대 73%에서 과도한 일반화로 인한 부정확한 결론이 도출이 확인됐다고 밝혔다.</p> <p contents-hash="dbc92073712ea209ab3405e607b300d436b3242d74175cb6139706741cf03bcb" dmcf-pid="P7LyTAtsXL" dmcf-ptype="general">연구팀은 "대부분 AI 모델이 원문보다 더 포괄적인 결론을 일관되게 생성하는 것으로 밝혀졌다"며 "놀라운 것은 정확성을 요구하는 프롬프트가 문제를 더 악화시키고, 최신 모델이 구형 모델보다 성능이 더 나쁘다는 것"이라고 말했다.</p> <p contents-hash="75fb08f08cf1e499d9274a6c34458744f4d2f6686815469bf01c6e9e8a0d3dc4" dmcf-pid="QzoWycFOHn" dmcf-ptype="general">연구팀은 챗GPT-4o(ChatGPT-4o)와 챗GPT-4.5(ChatGPT-4.5), 딥시크(DeepSeek), 라마 3.3 70B(LLaMA 3.3 70B), 클로드 3.7 소네트(Claude 3.7 Sonnet) 등 챗봇 10개가 네이처(Nature), 사이언스(Science), 랜싯(Lancet) 등 과학·의학 저널에 게재된 초록 및 논문 전문을 얼마나 정확히 요약하는지 평가했다.</p> <p contents-hash="f57fa02a27d774859394b0b7b0338bfe8c1e75a3ec88edd6022ec33b2404a544" dmcf-pid="xqgYWk3IXi" dmcf-ptype="general">4천900개의 LLM 생성 요약문을 분석한 결과 10개 AI 모델 중 6개가 원문 주장에 대한 체계적 과장 현상을 보였다. </p> <p contents-hash="51cf1a283241bded601329247afcf3fa3aff8d5b44cbf3b90f68db025ef99659" dmcf-pid="yDFRM7aVHJ" dmcf-ptype="general">이는 미묘하지만 독자에게 영향을 줄 수 있는 방식으로 일어나는 것으로 나타났다. '이 연구에서 치료법은 효과적이었다'라는 신중한 과거 시제 표현을 '이 치료는 효과적이다'처럼 더 일반화된 현재 시제로 바꾸는 식이다. </p> <p contents-hash="23b27e5df93912c8c0ea710a57455241c9f337e83f7d04aa682107b62973f701" dmcf-pid="Ww3eRzNfZd" dmcf-ptype="general">연구팀은 특히 이들 AI 모델이 더 정확한 요약을 요구할 경우 일반화 편향이 오히려 더 커진다는 점과 최신 모델이 구형 모델보다 성능이 더 나쁜 것으로 나타난 점 등을 문제로 지적했다.</p> <p contents-hash="bde7bc0c6a827a3a169bf3cc32921dfa842e4cc0146a80c5504d8a6221f73bcd" dmcf-pid="Yr0deqj45e" dmcf-ptype="general">챗봇에 부정확성을 피하라는 명시적 프롬프트를 주면 단순히 요약만 요청했을 때보다 과도한 일반화 결론 생성 가능성이 거의 두 배 가까이 높아졌다. </p> <p contents-hash="8b47f4d5e8bc1949f87d1f76dad605ceb9c74fc6155b0451c6e06fd4ff4b535a" dmcf-pid="GmpJdBA8ZR" dmcf-ptype="general">페터스 박사는 "학생, 연구자, 정책 결정자들은 챗GPT에 부정확성을 피하라고 요청하면 더 신뢰할 수 있는 요약을 얻을 수 있을 것으로 기대하겠지만 결과는 정반대였다"며 우려스럽다고 말했다.</p> <p contents-hash="b70dc556e6fd54b48d238d009e70258a0f785e63c94e9c9d4025e34053ad5e60" dmcf-pid="HsUiJbc6XM" dmcf-ptype="general">또 챗GPT-4o와 딥시크 같은 최신 AI 모델들이 구형 모델보다 요약 정확성이 오히려 떨어졌으며, 챗봇 생성 요약과 사람의 요약을 비교한 결과 챗봇의 과도한 일반화 결론 가능성이 사람보다 거의 5배 높았다.</p> <p contents-hash="071cecd241874ccf6d9b0db5d7068af3caffa2cb4f460e7f345f532e20d73ebc" dmcf-pid="XPmp0l9HHx" dmcf-ptype="general">연구팀은 AI가 학습과 사용자와의 상호작용에서 일반화 편향을 갖게 된 것으로 추정했다. 이전 연구를 보면 과학 글쓰기에서 과도한 일반화가 흔히 나타나는데, AI가 이런 텍스트로 학습하면서 일반화 편향을 습득했을 수 있다는 것이다.</p> <p contents-hash="60a35b8a8ff5605dbb80583b0809fe4554d82831d85897b83c440d344707bfe4" dmcf-pid="ZQsUpS2XZQ" dmcf-ptype="general">페터스 박사는 또 "사용자들은 유용하고 광범위하게 적용할 수 있는 응답을 선호하는 경향이 있다"며 "AI가 이런 사용자와 상호작용하면서 정확성보다 유창함과 일반성을 선호하게 학습했을 수 있다"고 말했다.</p> <p contents-hash="8b3b30820eb7782ecdd136dd605e1c6c604787dd450351c2737eae2ad3ef275f" dmcf-pid="5xOuUvVZ1P" dmcf-ptype="general">연구팀은 AI의 과도한 일반화 편향을 줄이기 위해서는 챗봇의 창의성을 조절하는 변수인 온도(temperature)를 낮게 설정할 것과 AI에 요청할 때 반드시 간접적인 과거 시제를 사용해 요약문을 생성하도록 지시할 필요가 있다고 권고했다.</p> <p contents-hash="5c1c85095db7719a63ed27257911804777687bd8aeb9dd8c9b61934d405a0b11" dmcf-pid="1MI7uTf5G6" dmcf-ptype="general">◆ 출처 : Royal Society Open Science, Uwe Peters et al., 'Generalization bias in large language model summarization of scientific research', https://royalsocietypublishing.org/doi/10.1098/rsos.241776</p> <p contents-hash="2373bb847f3c65714188e8723b723c002762e0bf8102a5d4bc401efd72f658c1" dmcf-pid="tRCz7y41Y8" dmcf-ptype="general">scitech@yna.co.kr</p> <p contents-hash="74d20b6ef364bfa3c0d8537d95e5cf2dc7bc0ae924ac8d96541841605afba691" dmcf-pid="3dlBqY6FHf" dmcf-ptype="general">▶제보는 카톡 okjebo</p> </section> </div> <p class="" data-translation="true">Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지</p> 관련자료 이전 '맹감독' 프로농구 감독 박성웅, 코트 위 뜨거운 에너지 열정 모먼트 05-14 다음 신유빈·임종훈 포함 韓 탁구 국가대표팀, 2025 세계탁구선수권대회 출격... 17일부터 메달 사냥 나선다 05-14 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.