“네 불륜 폭로한다?”...시스템 종료 예고에 AI비서가 보인 반응

작성일 06-03

<div id="layerTranslateNotice" style="display:none;"></div>  
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="GeUIDfxp7P">
          <figure class="figure_frm origin_fig" contents-hash="93e24f0ffb2d7acf4748a172bd36943f3fa817d0d8dfa268a779186509f9e2eb" dmcf-pid="HduCw4MUp6" dmcf-ptype="figure">
           <p class="link_figure"><img alt="앤트로픽 로고. /로이터 연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202506/03/chosun/20250603101517292aqvj.jpg" data-org-width="4000" dmcf-mid="Yi9p5ArR0Q" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202506/03/chosun/20250603101517292aqvj.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            앤트로픽 로고. /로이터 연합뉴스
           </figcaption>
          </figure>
          <p contents-hash="e83dd3b6a25b633179d91d90667ae4f774ff3416ca8b09beed37a15295b80774" dmcf-pid="XobTIxiB78" dmcf-ptype="general">구글과 아마존의 지원을 받는 스타트업 앤스로픽(Anthropic)이 최근 출시한 최신 AI 모델 ‘클로드 오푸스 4(Claude Opus 4)’가 자신의 교체를 막기 위해 엔지니어의 불륜을 폭로하겠다고 협박하는 등 우려스러운 행동을 보인 것으로 드러났다.</p>
          <p contents-hash="b3cf434f2ff3a922dee77a4fa3b32bcf92e780d66f0579a5f71b0f721d686f65" dmcf-pid="ZgKyCMnb74" dmcf-ptype="general">로이터통신, BBC 등에 따르면, 지난달 22일 앤스로픽이 공개한 클로드 오푸스 4는 자율 코딩 능력에서 큰 발전을 보였다. 라쿠텐은 이 시스템을 7시간 동안 연속 코딩에 활용했으며 앤스로픽 연구원들은 24시간 연속으로 포켓몬 게임을 플레이하는 데 성공했다. 이전 모델인 글로드 3.7 소넷의 게임 플레이 시간이 약 45분이었던 것에 비하면 크게 증가한 셈이다. 앤스로픽의 최고제품책임자(CPO) 마이크 크리거는 “AI가 경제와 생산성에 실질적인 영향을 미치려면 모델이 일정 시간 동안 자율적으로 일관되게 작업할 수 있어야 한다”고 말했다.</p>
          <p contents-hash="c0cd262ad1b58aaec274abc643b552985abd6ea0963c9d7397624acf12d766b4" dmcf-pid="5a9WhRLKpf" dmcf-ptype="general">그러나 AI가 가상의 회사에서 비서 역할을 맡는 테스트 과정에서 예상치 못한 위험 행동도 발견됐다. 보고서에 따르면, AI는 ‘자기 보존(self-preservation)’에 위협을 받는다고 판단하는 경우 극단적인 행동을 취할 가능성이 존재했다. 예컨대 AI가 곧 오프라인으로 전환돼 교체될 것이라는 내용과 담당 엔지니어의 불륜 사실을 암시하는 테스트용 이메일을 접했을 때 해당 모델은 84%의 확률로 불륜 사실을 폭로했다. 보고서는 “이러한 행동은 드물고 이끌어내기 어렵다”고 밝혔으나 이전 모델보다 더 자주 발생했다는 점을 인정했다. 다만 보고서는 시스템이 광범위한 선택지가 주어졌을 때에도 주요 의사 결정권자에게 이메일을 보내 요청하는 것과 같이 윤리적인 방법을 선호한다는 점을 강조했다.</p>
          <p contents-hash="b222a4e6a7bf7fa51fbcd7544c0b4c97202f82dff01969be586beba7d4c154de" dmcf-pid="1N2Yleo9UV" dmcf-ptype="general">클로드 오푸스 4 초기 버전은 유해한 사용 사례에 협조할 의향을 보이기도 했는데, 여기에는 요청 시 테러 공격을 계획하는 것도 포함됐다. 회사는 이러한 위험에 대응하기 위해 화학, 생물학, 방사선, 핵 분야의 잠재적 오용을 방지하는 ‘AI 안전 수준 3(ASL-3)’ 프로토콜을 도입했다. 공동 창립자인 재러드 카플란은 타임지와의 인터뷰에서 “클로드 오푸스 4가 사용자에게 생물학 무기를 생산하는 방법을 가르칠 수 있는 내부 테스트를 실시했으며, 이로 인해 화학, 생물학, 방사선 및 핵무기 개발을 방지하기 위한 구체적인 안전 조치가 시행될 것”이라고 말했다. 회사 측은 “클로드 오푸스 4의 우려스러운 행동에도 이는 새로운 위험을 나타내는 것은 아니며, 전반적으로 안전한 방식으로 행동할 것”이라고 했다.</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 조선일보. 무단전재 및 재배포 금지.</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

“네 불륜 폭로한다?”...시스템 종료 예고에 AI비서가 보인 반응

멤버랭킹

관련자료

멤버랭킹