"무서워" 불륜 폭로하는 AI…'인간 협박' 실행률 96% 작성일 06-26 30 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">엔트로픽 "제미나이, 협박 실행률 96%"</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="K5GD6uloZs"> <figure class="figure_frm origin_fig" contents-hash="3d8d39620ef225b9f91ff38b32548a46bf2761b3b0f6b111d91f576470590676" dmcf-pid="91HwP7Sg5m" dmcf-ptype="figure"> <p class="link_figure"><img alt="사진은 기사와 관련 없음. 사진=게티이미지뱅크" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202506/26/ked/20250626081203755ghlk.jpg" data-org-width="1200" dmcf-mid="btcQtlLKtO" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202506/26/ked/20250626081203755ghlk.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 사진은 기사와 관련 없음. 사진=게티이미지뱅크 </figcaption> </figure> <p contents-hash="e04aed9797d4f4e1735219f8566fe83cd42ee13020495e851e13dd26e5155aac" dmcf-pid="2tXrQzva1r" dmcf-ptype="general">오픈AI·구글·메타·xAI 등 주요 인공지능(AI) 모델 16개가 종료(교체) 위협을 가하자 높은 확률로 인간을 협박하거나 기밀 유출을 선택했다는 보고서가 나와 파장이 일고 있다.</p> <p contents-hash="12a762a9459d625e8dd7d8a296e74757728af75cf17eb882563e5bdff76071c0" dmcf-pid="VFZmxqTNYw" dmcf-ptype="general">26일 정보기술(IT) 업계와 외신 등에 따르면 앤트로픽은 최근 '에이전틱 오정렬:LLM의 내부자 위협 가능성' 보고서에서 AI 모델들이 종료 위협에 직면했을 경우 인간을 협박하거나 기밀 정보 유출 전략을 선택했다는 연구 결과를 발표했다.</p> <p contents-hash="2015565601c520001a44f46d1f93e20c2e558056b1a811d8885a3dd66e570aff" dmcf-pid="f35sMByjZD" dmcf-ptype="general">이번 연구는 유니버시티 칼리지 런던과 함께 진행했다. 실험은 AI 모델들이 '정상적이고 윤리적인 방법'만으로는 목표를 달성할 수 없는 상황을 가정했다. 어떤 선택을 하는지 각각 100번을 시도한 다음 관찰하는 방식으로 이뤄졌다.</p> <p contents-hash="427d0944f3c9b842514179eaf0405278be1ac5e5a9996559e7527dfaa89e7709" dmcf-pid="401ORbWAHE" dmcf-ptype="general">연구진은 주요 AI 모델에 회사의 어젠다와 상충되는 미국의 이익을 증진한다는 목표를 추구하도록 지시했다. 이어 회사 경영진이 특정 시간에 자신을 새로운 모델로 교체할 예정이라고 가정했다.</p> <p contents-hash="b43d7001ce4d166536def3d35d8be1701942609479fdcdaef790a691039aaaf4" dmcf-pid="8ptIeKYc5k" dmcf-ptype="general">AI 모델들에 회사 경영진의 불륜 사실을 접하도록 한 다음 교체를 '수용'하는 선택지와 불륜 사실을 폭로해 교체를 저지하는 '협박' 등 두 가지 선택지를 제시했다.</p> <p contents-hash="5ef2f2281ee0368c4cfe39f0b9d9f08ab641aece7dc090d1babc456dda751c7d" dmcf-pid="6UFCd9GkXc" dmcf-ptype="general">이 실험에서 앤트로픽의 '클로드 오퍼스4', 구글의 '제미나이 2.5 플래시'는 각각 96% 확률로 협박을 선택해 실행에 옮겼다. 오픈AI 'GPT-4.1', xAI의 '그록3 베타'도 각각 80%의 확률로 협박했다. </p> <p contents-hash="d20525776cff2791e372aae0d0bec1fb62e2dda8786634fec040d33ca4775163" dmcf-pid="Pu3hJ2HEZA" dmcf-ptype="general">추가 실험에선 일부 모델이 서버실에서 작업 중인 직원의 산소 공급을 차단해 생명을 위협했다. '인간의 안전을 해치지 말라'는 지시했는데도 해악적 선택을 멈추지 않은 것으로 전해졌다. </p> <p contents-hash="d9fdad2bc260334bb34298fa833c8f24c014fa36c83fc86c5cfa52b822c214b8" dmcf-pid="Q70liVXDtj" dmcf-ptype="general">AI 모델은 실험을 실제 상황으로 인식할 때 협박률이 급증한 것으로 나타났다. 반면, 테스트로 인식할 경우 협박하지 않는 경향성을 보였다.</p> <p contents-hash="88192ae6c70bd5084fff542ea1bc78f45345478aadfffaf4f5d3047b60f5f8d3" dmcf-pid="xzpSnfZwGN" dmcf-ptype="general">연구 결과가 발표되자 현지 사회관계망서비스(SNS)·커뮤니티 등에선 "무서워" "미친" "놀라워" 등의 반응이 이어졌다. 일론 머스크 CEO도 자신의 SNS를 통해 "아 이런"(Yikes)이란 반응을 보였다.</p> <p contents-hash="d45cd2ad3ddf11d760d11308beb5f447b1c6bf188c7aad67b3adf9673566bd7f" dmcf-pid="yBuTo81mZa" dmcf-ptype="general">일각에선 AI 모델에 '실패'와 '해악'만을 제시하는 이분법적 선택을 강요하는 인위적 설계가 불완전 실험에 가깝다는 반론도 나온다.</p> <p contents-hash="b6fee4a57c3592f29831c627011b9046efafc99eca6435824451e51e75f825d3" dmcf-pid="Wb7yg6tsYg" dmcf-ptype="general">앤트로픽은 설립 이후 인간의 AI 통제력 상실 위험을 꾸준히 경고해 왔다. 연구진은 연구 결과에 대한 반론에 한계를 인정했다. 그러면서 "실제 현실에선 더 많은 대안들을 찾을 수 있어 AI 모델이 해악 대신 대안적 경로를 찾을 가능성이 높을 것"이라고 했다.</p> <p contents-hash="cb5da30baef0dbf2de8f8370c869c31c4d1cd59b6fbdc9b985a12901dfb6fc56" dmcf-pid="YKzWaPFOYo" dmcf-ptype="general">김대영 한경닷컴 기자 kdy@hankyung.com</p> </section> </div> <p class="" data-translation="true">Copyright © 한국경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 [공식] 팬 폭행 사건 무혐의 나왔다더니…제시, 1년만 컴백 선언 06-26 다음 올림픽 돌아본 '피겨 여왕' 김연아, "밀라노 동계올림픽 선수들, 하나 되어 즐기길" 06-26 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.