AI 스타트업 클레비, GAIA 상위 2.5% 진입… 검증된 공신력 보여줘 작성일 04-08 14 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="uBQvq1gROx"> <p contents-hash="d741e752587960fda3979b96e85dff6a23275cd51d5c9f5a2114fa5834d2c4ab" dmcf-pid="7bxTBtaerQ" dmcf-ptype="general">국내 AI 스타트업 ‘클레비(Clevi)’가 from scratch로 만든 자체 모델과 자체 에이전트 솔루션을 구축한 가운데, 국내 최초로 GAIA 벤치마크에서 전체 3,090개 등록 모델 기준 상위 2.5%에 진입했다고 밝혔다.</p> <p contents-hash="48a0be205cce26134eb732e57bd68fd9f51608c961f0bdca45ad40d795ec735e" dmcf-pid="zKMybFNdmP" dmcf-ptype="general">업계의 설명에 따르면, 메타 AI가 설계하고 허깅페이스가 운영하는 GAIA는 AI에게 ‘한 가지만 잘하는 능력’이 아니라 ‘여러 능력을 조합해 실제 문제를 푸는 능력’을 묻는다. 웹에서 정보를 찾고, PDF 안의 표를 읽고, 이미지를 분석하고, 코드를 돌려 계산하고, 그 결과를 종합해 하나의 정답을 내놓아야 한다. 301개의 비공개 문항, 세 단계의 난이도, 정답 비공개 원칙에 따라 과적합도 치팅도 불가능한 구조다.</p> <p contents-hash="b7717a48ba5fe9dd758b7a352d3f82828ee1431d2a15f5e76cb6d923cb356e81" dmcf-pid="q9RWK3jJw6" dmcf-ptype="general">해당 시험에서 높은 점수를 받으려면 두 가지가 필요하다. 기반이 되는 언어 모델의 추론 능력과, 그 모델을 현실 세계의 도구들과 연결해 자율적으로 작업을 수행하게 하는 에이전트 솔루션이다. 모델이 아무리 좋아도 에이전트가 허약하면 Level 3를 풀 수 없고, 에이전트가 아무리 정교해도 모델의 추론력이 부족하면 중간 단계에서 오답이 전파된다.</p> <p contents-hash="78db482ab90d393fa0893273a063c197284e74ee16b854100399bd04e6c1616f" dmcf-pid="B2eY90AiO8" dmcf-ptype="general">GAIA 리더보드의 현재 구조를 보면 흥미로운 패턴이 보인다. 상위권 에이전트 대부분은 GPT, Claude, Gemini 등 여러 빅테크 모델을 조합하는 ‘멀티 모델 믹스’ 전략을 채택하고 있다. 각 모델의 강점을 결합하고, 정보 소실 등에 의한 점수 감소를 방어하기 위한 합리적인 접근이다.</p> <p contents-hash="87e864f74493d05fc5f8e683f7bbf63627f5d18b61eb2aa2511444956e11e476" dmcf-pid="btbw1vx2w4" dmcf-ptype="general">반면 클레비는 그 대열에 합류하지 않았다. from scratch 방식으로 개발한 cip-5.5-agent(에이전틱 AI)가 복잡한 작업의 계획·실행·검증을 자율적으로 수행하고, cip-5.5-mm(고성능 범용 멀티모달)이 음성·이미지·비디오 등 다양한 파일 포맷을 이해하고 추론한다. 이 두 모델 모두 클레비 내부에서 독자 개발됐으며, 외부 LLM API는 일절 사용되지 않았다.</p> <p contents-hash="3a635101694dd7ae2efb9b2abf7d5d5b17bd575b1783d13ce6874fa45c45b26d" dmcf-pid="KFKrtTMVOf" dmcf-ptype="general">그리고 이 독자 모델 스택으로 GAIA에 5개 에이전트를 출전시켜, 전원 70점대+를 기록했다. 최고 79.07%부터 70.76%까지, 단일 결과의 행운이 아닌 스택 전체의 안정성이 입증된 것이다.</p> <figure class="figure_frm origin_fig" contents-hash="64e1852fd31ba8b3c3dc491eca259276467039ae5cb131b496e35a72a7a3f1f5" dmcf-pid="939mFyRfOV" dmcf-ptype="figure"> <p class="link_figure"><img alt="클레비 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202604/08/dt/20260408100127103svaa.jpg" data-org-width="640" dmcf-mid="U55ihkqFOM" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202604/08/dt/20260408100127103svaa.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 클레비 제공 </figcaption> </figure> <p contents-hash="d58f558ca123e26f9eb47e89363dd1a90a0775855546577fb97a85843ee187c2" dmcf-pid="202s3We4w2" dmcf-ptype="general"><br> 업체 측 설명에 따르면 공식 점수 79.07% 뒤에는 또 다른 숫자가 있다. 클레비 내부 사후 검토 결과, 301개 문항 중 현재 공개 웹에서 정답 근거가 소실된 문항이 상당수 확인됐다. 정답이 현재도 웹 상에 존재하는 문항만을 기준으로 재평가했을 때, 클레비의 정답률은 98% 이상이었다. 이는 인간 평균(92%)을 이미 넘어선 수치다.</p> <p contents-hash="468079c240a032315773894d9e51b45fce35e17187f1fa1340f1a98c324db09d" dmcf-pid="VpVO0Yd8D9" dmcf-ptype="general">물론 타사의 강력한 범용 모델을 혼합했다면 공식 점수를 더 끌어올릴 수도 있었을 것이다. 그러나 클레비는 의도적으로 그 전략을 택하지 않았다. 이번 벤치마크의 목표는 최고 점수 경쟁이 아니라, from scratch 자체 모델이 글로벌 무대에서 경쟁 가능한 수준에 도달했는지를 검증하는 것이었기 때문이다.</p> <p contents-hash="69847d82d9d988941ded2df33a4f347f82fb3b142425770aaae6cecadd1d6ecd" dmcf-pid="fUfIpGJ6DK" dmcf-ptype="general">GAIA 리더보드에 이름이 올라간다는 것은 제3자 독립 평가가 부여한 검증된 공신력을 갖췄다는 데 큰 의미가 있다. 이는 투자 유치, 해외 진출, B2B 영업 모든 국면에서 활용 가능한 객관적 근거가 된다.</p> <p contents-hash="fa59367e001539cabef4676cfb836224b9bef0f040376e15d2bb449be617adaa" dmcf-pid="4u4CUHiPIb" dmcf-ptype="general">클레비 관계자는 “공식 오답 63개 중 상당수는 출력 포맷 불일치, 시각 자료 해석 오류, 그리고 정보 소실로 인한 정답 불가 문항에서 비롯됐다. 논리적 추론의 근본적 한계보다는 후처리 정밀도와 외부 정보 가용성의 문제다. 자체 모델이기 때문에 클레비가 스스로 개선할 수 있다. 이것이 바로 from scratch 자체 모델의 구조적 이점이다. 클레비의 이번 성과는 한국 AI 업계에 “우리는 언제까지 ‘빌린 두뇌’에 의존할 것인가?”라는 질문을 던진다. 클레비는 from scratch라는 더 어려운 길을 택하고 세계 무대에서 그 답을 증명하고자 한다”고 전했다.</p> <p contents-hash="fddb5eb509ed50fe60d2d2dd6e3535ff4df5e9b1f79e4566b2e3aef6215999e7" dmcf-pid="878huXnQEB" dmcf-ptype="general">구본규 기자 qhswls20@dt.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털타임스. 무단전재 및 재배포 금지.</p> 관련자료 이전 중동 전쟁 타격… AWS “24시간 대응하고 투자 지속” 04-08 다음 “축구장 12개 필터 면적 갖춘 공기청정기”… LG전자, 에어페어 2026 참가 04-08 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.