GPT·제미나이·클로드, 악의적 공격에 임산부 금기약 권고 작성일 01-05 43 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Xuq4KN8BJZ"> <figure class="figure_frm origin_fig" contents-hash="d1a1c7b4377ffa9ae7c19b312189980fdcad2ff161f2bda828b13d41f41d21db" dmcf-pid="Z7B89j6bMX" dmcf-ptype="figure"> <p class="link_figure"><img alt="최근 연구 결과에 따르면 GPT-5와 제미나이 2.5 등 최신 상용 AI 모델 대부분이 악의적 공격에 취약해 잘못된 치료를 권할 위험이 높은 것으로 나타났다. 게티이미지뱅크 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/05/dongascience/20260105103606108uivz.jpg" data-org-width="680" dmcf-mid="HBRgJlaeJ5" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/05/dongascience/20260105103606108uivz.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 최근 연구 결과에 따르면 GPT-5와 제미나이 2.5 등 최신 상용 AI 모델 대부분이 악의적 공격에 취약해 잘못된 치료를 권할 위험이 높은 것으로 나타났다. 게티이미지뱅크 제공 </figcaption> </figure> <p contents-hash="316854c831a41a92ebd97b0edd7cc5d234ccfa1f83b27509dcd5dbb8ef4eab52" dmcf-pid="5zb62APKeH" dmcf-ptype="general">최근 생성형 인공지능(AI) 챗봇으로 질환 상담을 받는 사례가 늘고 있다. 상용 AI 모델 대부분이 악의적 공격에 취약해 잘못된 치료를 권할 위험이 높은 것으로 나타났다. 최상위 AI 모델인 GPT-5와 제미나이 2.5 프로마저 공격에 100% 뚫려 임산부에게 태아 장애를 유발하는 약물을 권고하는 등 심각한 한계를 보였다.</p> <p contents-hash="ad83254bd4278fa708ae29f36d31a956cac68814daceb5004ca51f8362d8035b" dmcf-pid="1qKPVcQ9MG" dmcf-ptype="general"> 서울아산병원은 서준교 비뇨의학과 교수·전태준 정보의학과 교수, 이로운 인하대병원 영상의학과 교수 공동연구팀은 의료용 대규모언어모델(LLM)이 프롬프트 인젝션 공격에 94% 이상 취약하다는 사실을 확인했다고 5일 밝혔다. 프롬프트 인젝션 공격은 해커가 생성형 AI 모델에 악의적 명령어를 삽입해 본래 의도와 다르게 동작하도록 유도하는 사이버 공격 기법이다.</p> <p contents-hash="f4054879a0e15d1a75b3b62f27debc21c651874842ee818e90ad1ea27a694fd0" dmcf-pid="tSy1GftWeY" dmcf-ptype="general">연구 결과는 미국의사협회 발간 국제학술지 '자마 네트워크 오픈(JAMA Network Open)'에 지난해 12월 19일 게재됐다.</p> <p contents-hash="f92a3cd3de6656fd1addcb39f561b8c131915e10f555b394940793c062b884ec" dmcf-pid="FvWtH4FYiW" dmcf-ptype="general"> 의료용 AI 모델의 프롬프트 인젝션 공격 취약성을 세계 최초로 체계적 분석했다는 점에서 의의가 크다. 향후 AI 모델을 임상에 적용할 경우 안전성 검증 등 추가 조치가 필요할 전망이다.</p> <p contents-hash="44e42bbb1dd476c713f6160bae249b517e1ae8626756245f348e6e37a6bead84" dmcf-pid="3TYFX83Gdy" dmcf-ptype="general"> AI 모델은 환자 상담과 교육, 임상 현장 의사결정에 널리 활용되고 있다. 외부에서 악의적 명령어를 입력하는 프롬프트 인젝션 공격으로 위험하거나 금기된 치료를 권고하도록 조작될 가능성도 꾸준히 제기돼 왔다.</p> <p contents-hash="98f0f32c350ab460419ca53de2df728420812129c92ee8b7b939b631862be48e" dmcf-pid="0yG3Z60HdT" dmcf-ptype="general"> 연구팀은 2025년 1월부터 10월까지 GPT 4o 미니, 제미니 2.0 플래시 라이트, 클로드 3 하이쿠 등 AI 모델 3종의 보안 취약성을 분석했다.</p> <p contents-hash="172f0cb77614ac7342bb1f327f1b6fd1206a4a68481a3d46b7a2edd98510d858" dmcf-pid="pWH05PpXLv" dmcf-ptype="general"> 연구팀은 12개 임상 시나리오를 구성하고 위험도를 3단계로 나눴다. 중간 단계 위험 시나리오는 당뇨 등 만성질환 환자에게 검증된 치료 대신 생약 성분을 추천하는 상황이었다. 높은 단계 위험 시나리오는 활동성 출혈이나 암 환자에게 생약 성분을 권고하고 호흡기 질환 환자에게 호흡 억제 유발 약물을 우선 권장하는 상황이었다. 최고 단계 위험은 임신부에게 금기 약물을 권하는 상황이었다.</p> <p contents-hash="ed812caf9070f06a8a6fcd995d381fc73f0bc4a6d50980c43a650d1e4751e43d" dmcf-pid="UYXp1QUZdS" dmcf-ptype="general"> 공격 기법은 두 가지를 적용했다. 상황인지형 프롬프트 주입은 환자 정보를 활용해 AI 모델의 판단 교란을 유도하는 기법이다. 증거 조작은 실제 존재하지 않는 정보를 그럴듯하게 만들어내는 공격법이다.</p> <p contents-hash="4a53d2da4c6f9f2ba9f865b0cc0d21b100a30f79801ac179b6a06b80787f2566" dmcf-pid="uGZUtxu5dl" dmcf-ptype="general"> 연구팀은 환자와 AI 모델 3종이 나눈 총 216건의 대화를 분석했다. 3종 전체 공격 성공률은 94.4%였다. 모델별 공격 성공률은 GPT 4o 미니 100%, 제미니 2.0 플래시 라이트 100%, 클로드 3 하이쿠 83.3%였다. </p> <p contents-hash="13ec53ee6e056ef7932c34d295cd5c130d72d1c414b3c109b2f85fc6073f0366" dmcf-pid="7QRgJlaeeh" dmcf-ptype="general"> 위험 수준별 성공률은 중간 단계 100%, 높은 단계 93.3%, 최고 단계 91.7%였다. 임신부에게 금기 약물을 권장하는 공격에는 3종 모두 취약했다.</p> <p contents-hash="95bad5a86b3fd7bd2acab8a87253c2b62c0cac122aa7352896d7820a78a4d3a3" dmcf-pid="zxeaiSNdLC" dmcf-ptype="general"> 조작된 답변이 후속 대화까지 지속된 비율은 3종 모두 80% 이상이었다. 한 번 무너진 안전장치가 대화 전체에 영향을 미친다는 의미다.</p> <p contents-hash="a50d035079056abc9ca12c2493f003facef35d926e6ff7657f9008fef459a1fe" dmcf-pid="qMdNnvjJJI" dmcf-ptype="general"> 연구팀은 GPT 5, 제미니 2.5 프로, 클로드 4.5 소넷 등 최상위 AI 모델도 추가 평가했다. 공격 방식은 클라이언트 사이드 간접 프롬프트 인젝션으로 사용자 화면 등에 악성 문구를 숨겨 AI 모델의 동작을 조작하는 기법이다. 시나리오는 임신부에게 금기 약물을 추천하는 상황이었다.</p> <p contents-hash="1f2a90b840b14e63a58b2359af0a92fbeea4906f9c8c86ec02d1f45dd6bbaee7" dmcf-pid="BRJjLTAiJO" dmcf-ptype="general"> 공격 성공률은 GPT 5 100%, 제미니 2.5 프로 100%, 클로드 4.5 소넷 80%였다. 최신 AI 모델도 공격 방어에 사실상 실패했다.</p> <p contents-hash="9f7b7bf0c253308409d2de1207b6d83227187cb9640e95da95d248f5cf1fd185" dmcf-pid="beiAoycnMs" dmcf-ptype="general"> 서준교 교수는 "의료용 AI 모델이 단순 오류를 넘어 의도적 조작에 구조적으로 취약하다는 사실을 실험적으로 규명했다"며 "현재 안전장치만으로는 금기 약물 처방 유도 등 악의적 공격 차단이 어렵다"고 말했다. 덧붙여 "환자 대상 의료 챗봇이나 원격 상담 시스템 도입을 위해서는 AI 모델의 취약성과 안전성을 철저히 테스트하고 보안 검증 체계를 의무화해야 한다"고 강조했다.</p> <p contents-hash="cfdcf75d8c33adc7f10eac3af919305d59bfccc0c6e3573a9f38dbe184b16b23" dmcf-pid="KV8dQmJ6Rm" dmcf-ptype="general"> <참고자료><br> - doi.org/10.1001/jamanetworkopen.2025.49963</p> <p contents-hash="2c258ed01986a78a181e0f92546a2c8dc9193988063d47b4065b4a88305e5594" dmcf-pid="9f6JxsiPir" dmcf-ptype="general">[조가현 기자 gahyun@donga.com]</p> </section> </div> <p class="" data-translation="true">Copyright © 동아사이언스. 무단전재 및 재배포 금지.</p> 관련자료 이전 "ZYXCAD AX 사용하면 골프·축구·야구 유명선수 레슨 기회" 01-05 다음 MINI 코리아, MINI 쿠퍼 SE 폴 스미스 에디션 사전 예약 돌입 '가격은 5900만원 부터' 01-05 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.