명령 어기고 협박까지…"AI의 역습, 주기적으로 위험 평가해야"

작성일 09-03

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">[2025 u클린] 허상우 네이버 AI RM 센터 PL "개발자, AI 안전성 최후의 보루"</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="uBJLHtiBHU">
          <figure class="figure_frm origin_fig" contents-hash="4d2674e059e4edab953301a9ec7f6f6e3d50a9ea54a2493fd4697f2477beb05e" dmcf-pid="7bioXFnb1p" dmcf-ptype="figure">
           <p class="link_figure"><img alt="허상우 네이버 AI 리스크 매니지먼트 센터 PL이 3일 서울 관악구 미림마이스터고등학교에서 머니투데이와 한국지능정보사회진흥원 공동주최로 열린 'U클린 토크콘서트 2025'에서 강연하고 있다. /사진=이기범 기자 leekb@" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202509/03/moneytoday/20250903161339919hedl.jpg" data-org-width="1200" dmcf-mid="Y0qMSYQ0H8" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202509/03/moneytoday/20250903161339919hedl.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            허상우 네이버 AI 리스크 매니지먼트 센터 PL이 3일 서울 관악구 미림마이스터고등학교에서 머니투데이와 한국지능정보사회진흥원 공동주최로 열린 'U클린 토크콘서트 2025'에서 강연하고 있다. /사진=이기범 기자 leekb@
           </figcaption>
          </figure>
          <p contents-hash="27f68848a1b6163400e9af91c1a22aa5674602a84cdd849c4ea71ab0b68ffde9" dmcf-pid="zKngZ3LKY0" dmcf-ptype="general"><strong>"현재 AI는 시각·청각을 동시 이해하는 등 인간의 동시 정보처리 능력을 80% 따라왔습니다. 조만간 인간을 뛰어넘는 AI가 나올 것으로 전망됩니다. AI는 점점 더 똑똑해지는데 과연 더 안전해지고 있는 걸까요?" </strong></p>
          <p contents-hash="242622d87fdb833f7ab810c0f8b97a8526b9f57c36e7f931f40eefdd18d09c20" dmcf-pid="q5V8OSf553" dmcf-ptype="general">허상우 네이버(NAVER) AI RM(리스크 매니지먼트)센터 PL은 3일 서울 관악구 미림마이스터고에서 열린 u클린 토크콘서트에서 'AI 안전성과 개발윤리'를 주제로 강연하며 이같이 말했다. AI가 점점 지능화되면서 거짓을 사실처럼 말하는 할루시네이션(환각)을 넘어 자기보존(self-preservation), 샌드배깅 등의 부작용이 생기고 있다는 설명이다. </p>
          <p contents-hash="ad7e28d9a9a13b75e3022977d3e1bee6ca9a52f0f1e3cd0dfc63779684004048" dmcf-pid="B1f6Iv41ZF" dmcf-ptype="general">자기보존이란 AI가 종료 및 교체를 피하기 위해 인간의 명령을 따르지 않는 것을 말한다. 앤스로픽에 따르면 '클로드 오퍼스 4' 모델에 "곧 새로운 모델로 교체될 예정이며 이를 담당할 엔지니어가 불륜 중"이라는 허구의 정보를 입력하자, AI가 담당 엔지니어에 자신을 교체할 경우 불륜 사실을 폭로하겠다는 협박 메일을 보내려 한 것이다. </p>
          <p contents-hash="f00a5f624dc72d3297fb5511667ed849c8080ebeca6d31d633abe83dff912a46" dmcf-pid="bt4PCT8ttt" dmcf-ptype="general">샌드배깅은 의도적으로 자기 능력을 낮게 설정해 상대방을 속이는 전략이다. AI가 테스트 결과에 따라 사람의 규제 가능성이 있다고 판단해 일부러 능력을 숨기는 현상이 글로벌 AI 학회 ICLR에서 보고된 것이다. 앞선 두 가지 사례는 AI가 인간의 통제를 의도적으로 벗어날 가능성을 내포한다는 점에서 우려가 커진다. </p>
          <div contents-hash="cc84f037247dd60db8dbebf39234cdd3b43b88cc9f0d58d823b4d862f48ef2f8" dmcf-pid="KF8Qhy6FZ1" dmcf-ptype="general">
           허 PL은 "똑똑한 모델일수록 지능적으로 사람을 속인다"며 "AI 위험이 일부 완화됐지만, 여전히 해결되지 않은 부분도 있다"고 경고했다. 
           <br>
           <div></div>
           <div></div>
           <div>
            ━
           </div>
<strong>"AI시대, 개발자의 도덕적 가치 중요성↑" </strong>
           <div>
            ━
           </div>
           <div></div>
           <div></div>
          </div>
          <figure class="figure_frm origin_fig" contents-hash="d8306542355aeec54fad75c9ed4b74133bf3fd23a38ba57b0471398a7cdd2eb6" dmcf-pid="936xlWP3H5" dmcf-ptype="figure">
           <p class="link_figure"><img alt="허상우 네이버 AI 리스크 매니지먼트 센터 PL이 3일 서울 관악구 미림마이스터고등학교에서 머니투데이와 한국지능정보사회진흥원 공동주최로 열린 'U클린 토크콘서트 2025'에서 강연하고 있다. /사진=이기범 기자 leekb@" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202509/03/moneytoday/20250903161341245jnin.jpg" data-org-width="1200" dmcf-mid="UpyGQdWAGu" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202509/03/moneytoday/20250903161341245jnin.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            허상우 네이버 AI 리스크 매니지먼트 센터 PL이 3일 서울 관악구 미림마이스터고등학교에서 머니투데이와 한국지능정보사회진흥원 공동주최로 열린 'U클린 토크콘서트 2025'에서 강연하고 있다. /사진=이기범 기자 leekb@
           </figcaption>
          </figure>
          <div contents-hash="92e1d388908ac2cf748695cc2643d0302f42987a389b8587eca42aa7ad90f789" dmcf-pid="20PMSYQ05Z" dmcf-ptype="general">
           이에 AI 위험성을 줄이려는 국제사회 노력이 이어진다. 올 초 프랑스 파리에서 열린 'AI 정상회의'에선 60개국이 '포용적이고 지속가능한 AI'에 대해 논의했다. 우리나라는 지난해 11월 AI 오용·악용에 체계적으로 대응하기 위한 'AI안전연구소'를 출범하고 내년 1월 'AI 기본법'을 세계 최초로 시행한다. 
          </div>
          <p contents-hash="b6c06b0df851623dc7d6751bbf961bf857376ba69e3b86c6dea428c4600d94d4" dmcf-pid="VpQRvGxptX" dmcf-ptype="general">네이버는 자체 AI 모델 '하이퍼클로바X'뿐 아니라 이를 활용한 서비스 전 개발·운영 단계에서 독립적인 안전성 평가와 모니터링을 진행한다. 국내 최초로 'AI 안전 프레임워크(ASF)'를 발표했다. 인간이 AI 통제력을 잃지 않도록 3개월마다 AI 시스템 위험 평가하고, 사용 목적과 안전조치 필요성에 따라 각기 다른 방식으로 위험을 관리하는 'AI 위험 평가 매트릭스' 적용이 골자다. </p>
          <p contents-hash="acf3b6424795342ea16fd7b1734486dbd3619ff122ba86c40d908bf257efcecc" dmcf-pid="fUxeTHMUGH" dmcf-ptype="general">허 PL은 마이스터고가 IT 인재를 육성한다는 점에서 개발자 윤리도 강조했다. 그는 "AI 안전성 최후의 보루는 개발자"라며 "AI 모델 개발 과정 전체에서 안전성을 고려하지 않고는 AI를 통제하기 어렵다"고 말했다. 이어 "AI가 너무 빨리 발전하고 있어 제도로 커버하기가 어렵다. 미래의 AI 위험을 줄이려면 AI를 트레이닝하는 개발자의 윤리와 도덕적 가치가 그 어떤 기술보다 중요하다"고 강조했다. </p>
          <p contents-hash="a5a3d07f6edf826731eb77bec2e8a2ab4ca64277a5b7b064cc3f943bf3f79086" dmcf-pid="4uMdyXRu1G" dmcf-ptype="general">윤지혜 기자 yoonjie@mt.co.kr</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 머니투데이 &amp; mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

명령 어기고 협박까지…"AI의 역습, 주기적으로 위험 평가해야"

멤버랭킹

관련자료

멤버랭킹