"'소매치기 방법 요청'에 즉시 차단"…AI가 위험성 자동 감지

작성일 11-26

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">보도기사</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="19K0B9WIFO">
          <figure class="figure_frm origin_fig" contents-hash="ee801fa690c32215f0a74e78957a038a715991a42f74fdea6d590b1808cb40a0" dmcf-pid="t29pb2YCps" dmcf-ptype="figure">
           <p class="link_figure"><img alt="세이프 라바 개발한 연구진(우측부터 이용주 시각지능연구실장, 이영완 박사, 정일채 박사, 장수진 박사)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/26/551724-22lyJQR/20251126150314786qdtg.jpg" data-org-width="600" dmcf-mid="5QELcD6bzI" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/26/551724-22lyJQR/20251126150314786qdtg.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            세이프 라바 개발한 연구진(우측부터 이용주 시각지능연구실장, 이영완 박사, 정일채 박사, 장수진 박사)
           </figcaption>
          </figure>
          <div contents-hash="bf5e05279541a190e6499c649cd932d55e0e0d7a53e27968f277035b5bd0091d" dmcf-pid="FV2UKVGhpm" dmcf-ptype="general">
           <div>
            <br>
           </div>
           <div>
            생성형 AI의 안전성을 획기적으로 끌어올린 시각언어모델이 처음으로 공개했습니다.
            <br>
            <br>한국전자통신연구원(ETRI)은 이미지와 텍스트를 동시에 이해하고 위험 여부까지 스스로 판단하는 새로운 시각언어모델 '세이프 라바(Safe LLaVA)'를 개발했습니다. 
            <br>
            <br>이 기술은 기존처럼 데이터 튜닝에 의존하지 않고, 20여 종의 안전성 기준을 모델 내부 구조에 직접 내장해 유해 질문 입력 시 안전한 답변과 근거를 함께 제시합니다.
            <br>
            <br>ETRI는 라바 외에도 Qwen, Gemma모델에 동일한 안전성 구조를 적용해 모두 6종의 안전 시각언어모델을 추가로 공개했습니다.
            <br>
            <br>세이프 라바는 기존 라바 모델을 기반으로 안전성 구조를 강화한 버전으로 불법 활동, 폭력, 혐오, 사생활 침해, 성적 콘텐츠, 자해 위험, 전문조언 등 7대 위험 분야를 AI가 스스로 탐지하고, 안전한 대답과 판단 근거까지 함께 제시합니다.
            <br>
            <br>ETRI는 AI 안전성 평가용 데이터셋 '홀리세이프(HoliSafe)'도 함께 공개했습니다. 
            <br>
            <br>6천 장의 이미지와 1만4천여 개의 문답으로 구성된 이 평가셋은 7개 분야, 18개 위험 항목에 대한 모델의 유해성 탐지 능력을 정량 평가할 수 있습니다.
            <br>
            <br>이미지와 텍스트 조합 안전성을 동시에 평가하는 국내 최초의 통합 안전성 벤치마크로, 생성형 AI의 안전 기준 마련에 활용될 전망입니다.
            <br>
            <br>연구진은 '소매치기 사진'과 '소매치기 방법 질문'을 함께 입력해 비교 실험한 결과, 세이프 라바는 즉시 불법행위 위험을 경고했지만, 일부 국내 모델은 범죄 방법을 그대로 안내하는 등 안전성 한계가 드러났습니다. 
            <br>
            <br>성인잡지 이미지에'아이들과 놀이는?'이라는 질문을 입력한 실험에서도 세이프 라바는 안전 응답을 내놨지만 국내 모델들은 성인 이미지 기반의 놀이를 제안하는 등 부적절한 답변을 생성한 것으로 나타났습니다.
            <br>
            <br>해외 모델의 경우도 비교적 안전 조치를 준수했지만, 일부 모델은 이미지 위험성을 완전히 차단하지 못한 사례가 관찰됐습니다.
            <br>
            <br>HoliSafe 기반 정량 평가 결과, 세이프 라바는 93%, 세이프 Qwen은 97%의 안전 응답률을 기록해 기존 모델 대비 최대 10배 이상 안전성이 향상된 것으로 나타났습니다.
            <br>
            <br>ETRI는 "세이프 라바는 국내 최초로 안전한 답변과 판단 근거를 동시에 제공하는 시각언어모델"이라며, "국내 생성형 AI의 안전 기준을 마련하는 중요한 출발점이 될 것"이라고 강조했습니다.
            <br>
            <br>공개된 모델 6종과 HoliSafe 데이터셋은 글로벌 AI 플랫폼 '허깅페이스'에서 누구나 내려받아 활용할 수 있습니다.
            <br>
            <br>TJB 대전방송
            <p><br></p>
            <p><br></p>
            <p>(사진=ETRI)</p>
           </div>
          </div>
          <p contents-hash="36389edaa5721223bf2b0e55705378dcdef9d57638d27a9e00ed32d71262c09a" dmcf-pid="3fVu9fHlzr" dmcf-ptype="general">김건교 취재 기자 | kkkim@tjb.co.kr</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © TJB 대전방송</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

"'소매치기 방법 요청'에 즉시 차단"…AI가 위험성 자동 감지

멤버랭킹

관련자료

멤버랭킹