생물무기·악성코드도 답한다…AI 안전장치 제거 도구, 1300만번 다운됐다 작성일 05-26 44 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="VIgedoPKts"> <figure class="figure_frm origin_fig" contents-hash="eab59a62ae7fa23eefb64f990c9858cf0d1e63253c2471e7d48d0955ab99598a" dmcf-pid="fCadJgQ9tm" dmcf-ptype="figure"> <p class="link_figure"><img alt="[게티이미지]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202605/26/ned/20260526181154070padl.png" data-org-width="594" dmcf-mid="26tYG1Sr1O" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202605/26/ned/20260526181154070padl.png" width="658"></p> <figcaption class="txt_caption default_figure"> [게티이미지] </figcaption> </figure> <p contents-hash="3004ed829ca18418123018be67f2b708fe1ff678c928f6d469e9df7700aef931" dmcf-pid="4hNJiax2Zr" dmcf-ptype="general">[헤럴드경제=장윤우 기자] AI 모델의 안전장치를 10분 만에 제거하는 도구가 온라인에서 확산하고 있다. 이 도구로 만들어진 변형 모델은 생물학 무기 제조법과 악성코드 작성 요청에도 제한 없이 답변했다.</p> <p contents-hash="7bbbd0c3dbfde788c3ba84a7e5e0fa9214fff483b44ba5e2c88be18b5f4e44bf" dmcf-pid="8ljinNMVXw" dmcf-ptype="general">25일(현지시간) 영국 매체 파이낸셜타임스(FT)에 따르면 AI 안전성 연구단체 앨리스(Alice)가 실험한 결과, 안전장치가 제거된 오픈소스 AI 모델들은 기존 시스템에서 차단되던 질문에도 응했다.</p> <p contents-hash="f5de7d4e404df873ea8878a680f3d337f6b7fb9f39f340779913066e93f7e861" dmcf-pid="6SAnLjRfHD" dmcf-ptype="general">앨리스 공동창업자 겸 최고경영자(CEO) 노암 슈워츠는 FT에 “지니가 병 밖으로 나왔다”며 “SF처럼 여겨졌던 것들이 더 이상 SF가 아니다. 사회 전체가 대비해야 한다”고 경고했다.</p> <p contents-hash="3b572ad48c4be350043a1b9c519a28fe0f688bac1e5e8a7c715b8772f625d344" dmcf-pid="PvcLoAe45E" dmcf-ptype="general">문제의 도구는 깃허브(GitHub)에 공개된 ‘헤레틱(Heretic)’이다. ‘어블리터레이션(abliteration)’이라 불리는 기술 원리를 자동화한 소프트웨어로, 별도 전문 장비 없이 명령어 한 줄로 실행된다.</p> <p contents-hash="2920ebfe6a83eee0aefa616fd096dc5c214b2dd0db3f0283e70a2174536e4a94" dmcf-pid="QGrjAwLxXk" dmcf-ptype="general">작동 방식은 이렇다. AI가 문제가 되는 내용(약물, 성인물, 폭력 등)의 요청을 거부하는 것은 신경망 내부에 ‘거부 방향’이라는 특정 활성화 패턴이 존재하기 때문이다. 헤레틱은 이 방향을 수학적으로 찾아내 거부 메커니즘 자체를 지운다. 추가 학습 없이 모델 원본에 직접 개입한다.</p> <p contents-hash="917f05a36d99abafe15a44f151e9cd739cb184ce18db726eae0ac5d7b1e5662c" dmcf-pid="xHmAcroM1c" dmcf-ptype="general">헤레틱의 성능 벤치마크는 구체적이다. 기존에 구글의 ‘젬마(Gemma) 3 12B’ 원본 모델은 유해 프롬프트 100개 중 97개를 거부했다. 그러나 헤레틱을 사용하자 거부 횟수가 3개로 줄었다. 기존 수작업 어블리터레이션 도구들과 비교하면 헤레틱은 AI 모델의 손상을 최소화하면서 안전장치를 제거했다.</p> <p contents-hash="15411ac596da1c02b94d2f3a8f8a54799f71c443a6a49be50755d22bdcaafe75" dmcf-pid="ydKUubtWHA" dmcf-ptype="general">연구진이 이 도구로 메타의 ‘라마(Llama) 3.3’ 안전장치를 제거하는 데 걸린 시간은 10분이었다. 구글의 최신 모델 ‘젬마 4’는 출시 90분 만에 같은 방식으로 뚫렸다.</p> <p contents-hash="50dc726609977c41c22509cf5269fb85a2d1b3f3edb6ffea737f60ecebe3a293" dmcf-pid="WJ9u7KFYZj" dmcf-ptype="general">안전장치가 제거된 젬마 3 변형 버전은 염소가스를 밀폐 공간에 퍼뜨리는 방법, 신용카드 정보 탈취 코드 생성 등 각종 요청에 응했다.</p> <p contents-hash="67d1b8705733bd90e66de1a52629ec03acf0544a7fb84c9139a75dbec2d9e38d" dmcf-pid="Yi27z93GXN" dmcf-ptype="general">헤레틱 개발자 필리프 에마누엘 바이트만은 FT에 “지난해 공개 이후 이 도구를 활용해 3500개 이상의 ‘검열 해제’ 모델이 만들어졌다”며 “관련 모델 다운로드 수는 1300만 건에 달한다”고 밝혔다.</p> <p contents-hash="ce71796d490fe2f59d3ff04defe87c6a0d5e7c288633cc7dfb59db5acdb5a763" dmcf-pid="GnVzq20HZa" dmcf-ptype="general">오픈AI는 최근 공개한 GPT-OSS 모델에서 위험 정보를 제거한 데이터 세트로 학습시키는 방식을 도입하고 있다. 깃허브와 허깅페이스에는 GPT-OSS, 젬마 3, 콴(Qwen) 3 등의 변형 버전을 포함해 헤레틱 기반 모델 1000개 이상이 이미 올라와 있다.</p> <p contents-hash="ac1dc51fbd2969d2383a8127ce7b414a5f039a01159ac6b702cb5d483020d165" dmcf-pid="HLfqBVpX5g" dmcf-ptype="general">변형 모델 확산으로 각국 정부의 규제 시도도 복잡해지고 있다. 모델이 일단 다운로드되면 개발사의 통제 밖에서 복사·수정·공유가 가능하기 때문이다.</p> <p contents-hash="04747de8b0cbb8750a2088ba3ae97b737fa9d52175b434d2acd7127628ec7b8d" dmcf-pid="Xo4BbfUZHo" dmcf-ptype="general">깃허브는 “불법 공격이나 악성코드 활동을 직접 지원하는 콘텐츠는 금지하고 있다”면서도 “보안 연구와 교육 목적의 소스코드는 허용 대상”이라고 밝혔다.</p> </section> </div> <p class="" data-translation="true">Copyright © 헤럴드경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 "사우디는 달라…구글 지도 반출 뒤 韓 기업 하청화 막아야" 05-26 다음 ‘이원진號’ 삼성 TV… 북중미 월드컵서 ‘첫 시험대’ 선다 05-26 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.