시계도 볼 줄 모르는 첨단 인공지능

작성일 03-18

<div id="layerTranslateNotice" style="display:none;"></div> 곽노필의 미래창 지피티 등 7개 거대언어모델 실험 결과 올바로 시계 읽은 비율이 25%도 안돼 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="ULUlrHSgsJ">
 <figure class="figure_frm origin_fig" contents-hash="faef6a09da7f2cb64d13705046ec59f8cf9626f5d9ea9f126e260e71c3313499" dmcf-pid="uouSmXvaDd" dmcf-ptype="figure">
 <img alt="7개 첨단 인공지능은 아날로그 시계를 읽을 줄 몰랐다. 픽사베이" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202503/18/hani/20250318093509104unjr.jpg" data-org-width="800" dmcf-mid="3WmB08bYwL" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202503/18/hani/20250318093509104unjr.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 7개 첨단 인공지능은 아날로그 시계를 읽을 줄 몰랐다. 픽사베이
 </figcaption>
 </figure>
 “어려운 일은 쉽고, 쉬운 일은 어렵다.” ‘모라벡의 역설’이라고 불리는 이 말은 인간에게 쉬운 것은 컴퓨터에게 어렵고, 인간에게 어려운 것은 컴퓨터에게 쉽다는 뜻을 담고 있다. 미국의 컴퓨터공학자 한스 모라벡이 1970년대에 컴퓨터와 인간이 문제를 해결하는 방식의 차이를 표현하기 위해 사용한 비유법이다. 인공지능이 데이터 분석에서 논문 작성, 창작에 이르는 다양한 분야에서 뛰어난 능력을 발휘하고 있는 오늘날에도 ‘모라벡의 역설’이 여전히 유효하다는 걸 단적으로 보여주는 사례가 나왔다. 인공지능이 초침과 분침이 움직이는 아날로그 시계를 읽는 기본적인 작업을 잘 하지 못하는 것으로 드러났다. 시계바늘 읽기는 보통 초등학교에서 입학해서 가장 먼저 배우는 것 가운데 하나다. 영국 에든버러대 연구진은 멀티모달 능력을 갖춘 거대언어모델(LLM) 7가지에 시계와 달력의 다양한 이미지를 주고 답을 내도록 하는 실험을 했다. 멀티모달 능력은 글자와 이미지, 동영상 등 다양한 종류의 콘텐츠를 분석하고 생성할 수 있다는 뜻이다. 
 <figure class="figure_frm origin_fig" contents-hash="879ba520e0c5748d2eeef18c95866e4ad5cb253a6e2d608a6981c73d12e79cf7" dmcf-pid="zazTO5yjDR" dmcf-ptype="figure">
 <img alt="실험에 사용한 6가지의 아날로그 시계 디자인. arxiv" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202503/18/hani/20250318093510600xpzd.jpg" data-org-width="713" dmcf-mid="0ULZTU5rsn" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202503/18/hani/20250318093510600xpzd.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 실험에 사용한 6가지의 아날로그 시계 디자인. arxiv
 </figcaption>
 </figure>
 날짜 계산은 지피티가 가장 점수 높아 실험에 사용한 인공지능은 오픈에이아이의 지피티포오(GPT-4o)와 지피티-오원(GPT-o1), 구글 딥마인드의 제미나이2.0, 앤트로픽의 클로드3.5소네트, 메타의 라마3.2(Llama 3.2-11B-Vision-Instruct), 알리바바의 퀀2(Qwen2-VL7B-Instruct), 중국 신생기업 모델베스트의 미니시피엠(MiniCPM-V-2.6)이었다. 연구진은 이들 모델에 아날로그 시계의 다양한 이미지와 10년치 달력 이미지를 보여줬다. 시계에선 시간 표시 수단으로 로마자나 숫자를 썼고, 시계판과 시계 바늘 디자인을 달리 적용했다. 초침은 없는 것도 있었다. 연구진은 이어 시계에 표시된 시간과 달력에 표시된 새해 첫날과 153번째 날의 요일 등을 인공지능에 물었다. 결과는 낙제점 수준이었다. 아날로그 시계의 시간을 올바르게 읽은 비율이 25%에도 미치지 못했다. 가장 높은 점수를 받은 구글의 제미나이 정답률이 22.6%였고 나머지 인공지능의 정답률은 한자릿수에 그쳤다. 시계에 로마자 숫자나 화살 표시 시계 바늘이 있을 때 오답이 더 많았다. 초침은 있는 것이나 없는 것이나 마찬가지였다. 연구진은 “이는 인공지능이 시계 바늘을 감지하고 각도를 해석하는 데 근본적인 문제가 있음을 시사한다”고 밝혔다. 날짜 계산에선 지피티-오원이 80%의 정답률로 가장 높은 점수를 받았다. 나머지 모델들의 정답률이 10~40%대인 것과 비교해 압도적인 우위를 보였다. 
 <figure class="figure_frm origin_fig" contents-hash="782308e5db07556d1a6212d3ad2930a4051fd817da2c447682507bd5df570766" dmcf-pid="BjBWCtYcOx" dmcf-ptype="figure">
 <img alt="인공지능이 잘못된 답변을 한 사례. 왼쪽은 시간, 오른쪽은 크리스마스 요일을 물어본 것에 대한 거대언어모델의 답변이다. 시간은 모두 잘못 읽었고, 크리스마스 요일은 2개 모델만 제대로 답변했다. arxiv" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202503/18/hani/20250318093511994xpvr.jpg" data-org-width="792" dmcf-mid="pXTNJrj4mi" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202503/18/hani/20250318093511994xpvr.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 인공지능이 잘못된 답변을 한 사례. 왼쪽은 시간, 오른쪽은 크리스마스 요일을 물어본 것에 대한 거대언어모델의 답변이다. 시간은 모두 잘못 읽었고, 크리스마스 요일은 2개 모델만 제대로 답변했다. arxiv
 </figcaption>
 </figure>
 사람한테 쉬운 일, 인공지능은 왜 못할까 연구진은 “사람들은 어린 나이에 시계바늘을 읽고 달력을 볼 줄 안다”며 “이번 연구는 사람들한테 아주 기본적인 일을 처리하는 데서 인공지능이 상당한 격차가 있다는 걸 보여준다”고 말했다. 아날로그 시계와 달력을 제대로 이해하려면 공간 인식과 맥락 및 기본 수학 능력의 조합이 필요한데 이것이 인공지능에는 여전히 어려운 문제로 남아 있다는 것이다. 연구진은 따라서 인공지능 시스템이 일정 작성이나 자동화 등 시간에 민감한 응용 프로그램을 성공적으로 수행하려면 이런 단점을 해결해야 한다고 강조했다. 이번 연구는 지난 2월 사전출판 논문 공유집 아카이브에서 공개됐다. 연구진은 4월28일 싱가포르에서 열리는 제13회 표현학습국제회의(ICLR)에서 이번 연구 내용을 발표할 예정이다. *논문 정보 Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs. https://doi.org/10.48550/arXiv.2502.05092 곽노필 선임기자 nopil@hani.co.kr
 </section> 
 </div> 
 Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

먹튀폴리스

시계도 볼 줄 모르는 첨단 인공지능

멤버랭킹

관련자료

멤버랭킹