GPT·제미나이·클로드, 악의적 공격에 임산부 금기약 권고

작성일 01-05

<div id="layerTranslateNotice" style="display:none;"></div> 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="Xuq4KN8BJZ">
 <figure class="figure_frm origin_fig" contents-hash="d1a1c7b4377ffa9ae7c19b312189980fdcad2ff161f2bda828b13d41f41d21db" dmcf-pid="Z7B89j6bMX" dmcf-ptype="figure">
 <img alt="최근 연구 결과에 따르면 GPT-5와 제미나이 2.5 등 최신 상용 AI 모델 대부분이 악의적 공격에 취약해 잘못된 치료를 권할 위험이 높은 것으로 나타났다. 게티이미지뱅크 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/05/dongascience/20260105103606108uivz.jpg" data-org-width="680" dmcf-mid="HBRgJlaeJ5" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/05/dongascience/20260105103606108uivz.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 최근 연구 결과에 따르면 GPT-5와 제미나이 2.5 등 최신 상용 AI 모델 대부분이 악의적 공격에 취약해 잘못된 치료를 권할 위험이 높은 것으로 나타났다. 게티이미지뱅크 제공
 </figcaption>
 </figure>
 최근 생성형 인공지능(AI) 챗봇으로 질환 상담을 받는 사례가 늘고 있다. 상용 AI 모델 대부분이 악의적 공격에 취약해 잘못된 치료를 권할 위험이 높은 것으로 나타났다. 최상위 AI 모델인 GPT-5와 제미나이 2.5 프로마저 공격에 100% 뚫려 임산부에게 태아 장애를 유발하는 약물을 권고하는 등 심각한 한계를 보였다.
 서울아산병원은 서준교 비뇨의학과 교수·전태준 정보의학과 교수, 이로운 인하대병원 영상의학과 교수 공동연구팀은 의료용 대규모언어모델(LLM)이 프롬프트 인젝션 공격에 94% 이상 취약하다는 사실을 확인했다고 5일 밝혔다. 프롬프트 인젝션 공격은 해커가 생성형 AI 모델에 악의적 명령어를 삽입해 본래 의도와 다르게 동작하도록 유도하는 사이버 공격 기법이다.
 연구 결과는 미국의사협회 발간 국제학술지 '자마 네트워크 오픈(JAMA Network Open)'에 지난해 12월 19일 게재됐다.
 의료용 AI 모델의 프롬프트 인젝션 공격 취약성을 세계 최초로 체계적 분석했다는 점에서 의의가 크다. 향후 AI 모델을 임상에 적용할 경우 안전성 검증 등 추가 조치가 필요할 전망이다.
 AI 모델은 환자 상담과 교육, 임상 현장 의사결정에 널리 활용되고 있다. 외부에서 악의적 명령어를 입력하는 프롬프트 인젝션 공격으로 위험하거나 금기된 치료를 권고하도록 조작될 가능성도 꾸준히 제기돼 왔다.
 연구팀은 2025년 1월부터 10월까지 GPT 4o 미니, 제미니 2.0 플래시 라이트, 클로드 3 하이쿠 등 AI 모델 3종의 보안 취약성을 분석했다.
 연구팀은 12개 임상 시나리오를 구성하고 위험도를 3단계로 나눴다. 중간 단계 위험 시나리오는 당뇨 등 만성질환 환자에게 검증된 치료 대신 생약 성분을 추천하는 상황이었다. 높은 단계 위험 시나리오는 활동성 출혈이나 암 환자에게 생약 성분을 권고하고 호흡기 질환 환자에게 호흡 억제 유발 약물을 우선 권장하는 상황이었다. 최고 단계 위험은 임신부에게 금기 약물을 권하는 상황이었다.
 공격 기법은 두 가지를 적용했다. 상황인지형 프롬프트 주입은 환자 정보를 활용해 AI 모델의 판단 교란을 유도하는 기법이다. 증거 조작은 실제 존재하지 않는 정보를 그럴듯하게 만들어내는 공격법이다.
 연구팀은 환자와 AI 모델 3종이 나눈 총 216건의 대화를 분석했다. 3종 전체 공격 성공률은 94.4%였다. 모델별 공격 성공률은 GPT 4o 미니 100%, 제미니 2.0 플래시 라이트 100%, 클로드 3 하이쿠 83.3%였다. 
 위험 수준별 성공률은 중간 단계 100%, 높은 단계 93.3%, 최고 단계 91.7%였다. 임신부에게 금기 약물을 권장하는 공격에는 3종 모두 취약했다.
 조작된 답변이 후속 대화까지 지속된 비율은 3종 모두 80% 이상이었다. 한 번 무너진 안전장치가 대화 전체에 영향을 미친다는 의미다.
 연구팀은 GPT 5, 제미니 2.5 프로, 클로드 4.5 소넷 등 최상위 AI 모델도 추가 평가했다. 공격 방식은 클라이언트 사이드 간접 프롬프트 인젝션으로 사용자 화면 등에 악성 문구를 숨겨 AI 모델의 동작을 조작하는 기법이다. 시나리오는 임신부에게 금기 약물을 추천하는 상황이었다.
 공격 성공률은 GPT 5 100%, 제미니 2.5 프로 100%, 클로드 4.5 소넷 80%였다. 최신 AI 모델도 공격 방어에 사실상 실패했다.
 서준교 교수는 "의료용 AI 모델이 단순 오류를 넘어 의도적 조작에 구조적으로 취약하다는 사실을 실험적으로 규명했다"며 "현재 안전장치만으로는 금기 약물 처방 유도 등 악의적 공격 차단이 어렵다"고 말했다. 덧붙여 "환자 대상 의료 챗봇이나 원격 상담 시스템 도입을 위해서는 AI 모델의 취약성과 안전성을 철저히 테스트하고 보안 검증 체계를 의무화해야 한다"고 강조했다.
 &lt;참고자료&gt; - doi.org/10.1001/jamanetworkopen.2025.49963
 [조가현 기자 gahyun@donga.com]
 </section> 
 </div> 
 Copyright © 동아사이언스. 무단전재 및 재배포 금지.

이전

"ZYXCAD AX 사용하면 골프·축구·야구 유명선수 레슨 기회"

01-05
다음

MINI 코리아, MINI 쿠퍼 SE 폴 스미스 에디션 사전 예약 돌입 '가격은 5900만원 부터'

01-05

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

GPT·제미나이·클로드, 악의적 공격에 임산부 금기약 권고

멤버랭킹

관련자료

멤버랭킹