"믿었던 챗GPT가 환각률 48%라니...", 챗GPT 어쩌나

작성일 04-20

<div id="layerTranslateNotice" style="display:none;"></div>  <strong class="summary_view" data-translation="true">테크크런치 오픈AI 사내 벤치마크서 나온 환각율 보도<br>챗GPT o3, 환각률 33%<br>챗GPT o4미니는 48% 환각률 보여<br>오픈AI " 더 많은 연구가 필요하다"</strong> 
        <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
         <section dmcf-sid="bjPW6DOJg0">
          <figure class="figure_frm origin_fig" contents-hash="009f3d0b9967c24272040bf2f86b9d1a1c9214af43ca83090e936b9025b43df2" dmcf-pid="KAQYPwIig3" dmcf-ptype="figure">
           <p class="link_figure"><img alt="[보스턴=AP/뉴시스] 챗GPT 개발사인 오픈AI 로고. /사진=뉴시스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202504/20/fnnewsi/20250420125936407wdvt.jpg" data-org-width="800" dmcf-mid="BHGiY26Fkp" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/20/fnnewsi/20250420125936407wdvt.jpg" width="658"></p>
           <figcaption class="txt_caption default_figure">
            [보스턴=AP/뉴시스] 챗GPT 개발사인 오픈AI 로고. /사진=뉴시스
           </figcaption>
          </figure>
          <div contents-hash="1f0e2858d8afca49375aad2965aaf19b7bc4aca54c8662dd0f1b17bcd0a545bd" dmcf-pid="9LVl2jDxoF" dmcf-ptype="general">
           [파이낸셜뉴스] 오픈AI가 최근 공개한 추론형 AI 모델 ‘o3’와 ‘o4 미니’가 이전 세대보다 강력해진 성능을 갖췄지만, 환각(hallucination) 현상은 오히려 더 심해졌다는 평가가 나왔다. 환각은 생성형 AI가 실제 존재하지 않는 정보를 사실처럼 만들어내는 현상을 말한다. 
          </div>
          <div contents-hash="a45022a2f4de621a646e798efafce8172d0d66d0835118ba6b5a4ab5e27c112a" dmcf-pid="2ofSVAwMot" dmcf-ptype="general">
           <div data-mce-desctitle="smtitle">
            <strong>챗GPT o4 미니, 환각률 48%</strong> 
           </div>20일 테크크런치는 오픈AI의 사내 벤치마크인 ‘퍼슨(Person) QA’ 평가 결과를 인용해, o3 모델이 33%의 질문에 대해 환각을 일으켰다고 보도했다. 이는 o1(16%)과 o3 미니(14.8%)보다 두 배 이상 높은 수치다. 더 심각한 것은 o4 미니다. 이 모델은 무려 48%의 환각률을 기록하며 GPT-4o를 포함한 기존 모델들보다도 더 불안정한 모습을 보였다. 
          </div>
          <p contents-hash="c5e536b0ed0ae84211c45e9726a7bb3c16ceda743d74b4f7a1af8ded6018c989" dmcf-pid="Vg4vfcrRA1" dmcf-ptype="general">오픈AI는 지난 16일, 이들 모델을 “이미지를 사고 과정에 통합할 수 있는 최초의 모델”이라고 소개하며 출시했다. 단순히 이미지를 인식하는 것을 넘어, 시각 정보 자체를 추론 과정에 활용할 수 있다는 설명이다. 실제로 o3와 o4 미니는 사용자가 올린 화이트보드 그림, 도표, 그래프 등을 분석하고, 흐릿하거나 회전된 이미지도 처리할 수 있는 능력을 갖췄다. </p>
          <p contents-hash="24072bebea753a320c672277258e0d5780b263795012bc352c5eb26e899a262f" dmcf-pid="fa8T4kmeA5" dmcf-ptype="general">성능 측면에서도 코딩 관련 벤치마크인 SWE 테스트에서 o3는 69.1%, o4 미니는 68.1%를 기록해, 이전 모델인 o3 미니(49.3%)는 물론, 경쟁 모델인 클로드 3.7 소넷(62.3%)보다도 높은 수치를 보였다. 하지만 이러한 기술적 진보에도 불구하고, 환각률은 오히려 이전보다 증가했다. 그동안 새로운 모델이 출시될 때마다 환각 문제는 점진적으로 개선되어 왔다는 점에서, 이번 결과는 이례적이라는 지적이 나온다. </p>
          <div contents-hash="25d8aed6bb7ff9be3004421ac4a26b4ea89313da9f2aba374052fd2fdcd5d1fb" dmcf-pid="4N6y8EsdoZ" dmcf-ptype="general">
           <div data-mce-desctitle="smtitle">
            <strong>오픈AI, "더 많은 연구 필요"</strong> 
           </div>오픈AI는 이 현상의 원인에 대해 아직 명확한 설명을 내놓지 못하고 있다. 기술 보고서에서는 “모델이 이전보다 더 많은 주장을 하게 되면서, 정확한 정보뿐 아니라 잘못된 주장도 함께 증가한 것으로 보인다”고 분석하면서, 환각 증가의 정확한 원인을 규명하기 위해 “더 많은 연구가 필요하다”고 밝혔다. 
          </div>
          <p contents-hash="cfabcdac979e8318643071202e3f3bf71280e0eceafa2366907f071631594dfd" dmcf-pid="8jPW6DOJAX" dmcf-ptype="general">AI 업계는 이번 사례가 추론형 모델에 대한 신뢰성에 의문을 제기할 수 있다고 본다. 특히 법률, 회계, 세무 등 고정확도가 요구되는 산업군에서는 환각 문제가 해결되지 않을 경우, 추론형 AI 도입 자체가 어려워질 수 있다는 우려가 나온다. 오픈AI 측은 “모든 문제 영역에서 환각을 완전히 제거하는 것은 지속적인 연구 과제”라며, “정확성과 신뢰성을 높이기 위한 노력을 이어가고 있다”고 해명했다. <br>#인공지능 #AI #챗봇 #오류 #환각 #챗GPT #오픈AI #환각률 </p>
          <p contents-hash="63283cb43e4d25efcd2c04635ad122fea6d97bed9b3abceff04966c4c311a5fe" dmcf-pid="6AQYPwIicH" dmcf-ptype="general">ksh@fnnews.com 김성환 기자</p>
         </section> 
        </div> 
        <p class="" data-translation="true">Copyright © 파이낸셜뉴스. 무단전재 및 재배포 금지.</p>

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

"믿었던 챗GPT가 환각률 48%라니...", 챗GPT 어쩌나

멤버랭킹

관련자료

멤버랭킹