AI가 불러온 논문 대량 생산… “통계 검증 못 버텨” 작성일 05-26 130 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">미국 공공 보건 데이터 분석 논문 급증<br>일부는 AI가 생성한 듯한 형식</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="fD14bs3ISZ"> <figure class="figure_frm origin_fig" contents-hash="07b5b834381db08731980734c374b36f94f146a3e84715f5f84c03bfb8a9b64e" dmcf-pid="4wt8KO0CWX" dmcf-ptype="figure"> <p class="link_figure"><img alt="AI가 불러온 논문 대량 생산… “통계 검증 못 버텨” [그림=챗GPT]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/26/mk/20250526092404227hzud.png" data-org-width="700" dmcf-mid="Vgv7FNWAC5" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/26/mk/20250526092404227hzud.png" width="658"></p> <figcaption class="txt_caption default_figure"> AI가 불러온 논문 대량 생산… “통계 검증 못 버텨” [그림=챗GPT] </figcaption> </figure> <div contents-hash="0050a38c686b41efa45d72986e6310f96d0e892d1fe7891c71ac3dab53f8013c" dmcf-pid="8rF69IphSH" dmcf-ptype="general"> 최근 과학 학술지에 인공지능(AI) 도구를 활용해 공공 데이터를 분석한 논문이 급격히 증가하면서, 허위 또는 과장된 건강 주장을 담은 연구가 범람할 수 있다는 우려가 제기되고 있다. </div> <p contents-hash="a4215987d99a5da9ab3a6c0f80fa1df8cc11b3c58c28021b490a2141e26bab15" dmcf-pid="6m3P2CUlCG" dmcf-ptype="general">최근 국제 학술지 플로스 바이올로지(PLOS Biology)에 실린 연구에 따르면 미국의 국민건강영양조사(NHANES)를 기반으로 한 300편 이상의 논문을 분석한 결과, 다수의 논문이 ‘하나의 변수로 복합적인 질환을 설명한다’라는 공통된 패턴을 보이며 통계적 검증을 제대로 통과하지 못했다고 지적했다.</p> <p contents-hash="b8420b4baab14ecb679753b140e5cc41de3aacbca9d14a3197f7a097e2fe89a2" dmcf-pid="Ps0QVhuShY" dmcf-ptype="general">연구 저자인 매트 스픽 영국 서리대 생의학과 박사는 네이처와의 인터뷰에서 “최근 출판되는 논문들이 지나치게 정형화돼 있으며, 대형 언어 모델이 작성한 것처럼 보이기도 한다”라고 말했다. 이들 논문은 비타민 D 수치나 수면의 질과 같은 단일 변수를 우울증, 심장질환 같은 복합적 질병과 연관 지어 결론을 도출했지만, 실질적인 인과관계나 통계적 유의성을 갖추지 못한 경우가 다수였다.</p> <p contents-hash="b9ce2b486476e0224742c56c266d29ab0fd315a3e542dd3f1e22e72af7b2470e" dmcf-pid="QOpxfl7vvW" dmcf-ptype="general">연구진은 NHANES 데이터를 이용한 논문 중 2014년부터 2024년까지 발표된 341편을 표본으로 분석했다. 그 결과, 169개의 서로 다른 변수들이 건강 상태와 통계적으로 유의미한 관계가 있다고 주장됐으나, 다수는 변수 간 연관성이 서로 충돌하거나, 데이터의 일부만 인위적으로 선택해 분석한 것으로 나타났다. 연구진은 “시험을 보면서 맞은 문제만 골라 제출하는 식”이라며 이른바 ‘체리피킹’ 방식의 데이터 해석을 경고했다.</p> <p contents-hash="173b6d0e455549a3433dfa17671b62ad0cfc04b7286e6c8aece7699b51841c7b" dmcf-pid="xIUM4SzTWy" dmcf-ptype="general">특히 우울증을 주제로 한 28편의 논문을 검토한 결과, 통계적으로 의미 있다고 주장된 연관성이 교차 검증을 거친 후 절반 이상(15편)에서 유의성을 상실했다. 또한 14편의 논문 중 10편은 NHANES의 전체 데이터를 사용하지 않고 특정 연도나 연령층만 분석 대상으로 삼았지만, 그 이유를 명시하지 않았다. 이는 결과 도출을 위해 데이터를 임의로 편집하거나, 하나의 데이터셋으로 다수의 논문을 생산하기 위한 전략일 수 있다고 연구진은 분석했다.</p> <p contents-hash="0d1a94b9f31723d191fac8b6d9ba7ebc3d3bd941767c407f2831b086db295d62" dmcf-pid="yVAWh6EQTT" dmcf-ptype="general">문제의 핵심은 NHANES와 같은 공공 데이터가 코딩 또는 AI 시스템에 손쉽게 연결할 수 있는 형태로 제공되면서, 품질 관리 없이 논문이 대량 생산될 수 있는 구조에 있다는 점이다. 연구진은 2022년 이후 NHANES 기반 논문이 급격히 증가했으며, 표본으로 삼은 논문 중 절반 이상(190편)은 2024년 한 해에 발표됐다고 밝혔다. 이는 대형 언어 모델(LLM)이 본격적으로 상용화되기 시작한 시기와 맞물린다.</p> <p contents-hash="767cfd48a008fb946d0fc79311fd696f256fff2f6357730f60a2b87023b38d2b" dmcf-pid="WfcYlPDxvv" dmcf-ptype="general">연구 공동 저자인 찰리 해리슨 애버리스트위스대 계산생물학 박사는 “지금과 같이 대규모로 데이터가 남용되면 진짜 의미 있는 발견은 소음에 묻혀버릴 것”이라고 경고했다.</p> </section> </div> <p class="" data-translation="true">Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p> 관련자료 이전 ID 기반 보안 위협 대응하는 '옥타 ISPM 솔루션'…통합 가시성과 제어 기능 제공 05-26 다음 LG U+ ‘유쓰 페스티벌’ , AI 요약·안티딥보이스에 Z세대 주목 05-26 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.