인핸스, 글로벌 웹 AI 벤치마크서 구글·오픈AI와 어깨 나란히 작성일 10-12 49 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="FGWNfJKGru"> <figure class="figure_frm origin_fig" contents-hash="7b24de999363d123069dd6a8997eace6a7bbbb17b5293378383f2567e572bac4" dmcf-pid="3HYj4i9HIU" dmcf-ptype="figure"> <p class="link_figure"><img alt="인핸스 로고" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202510/12/etimesi/20251012120256096ezhl.jpg" data-org-width="700" dmcf-mid="1Wnqy3lorz" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202510/12/etimesi/20251012120256096ezhl.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 인핸스 로고 </figcaption> </figure> <p contents-hash="495b53744c2f17037c4db1b522efb8488a3c8df3af9a7a85bc375a14b5363186" dmcf-pid="0XGA8n2Xsp" dmcf-ptype="general">커머스 인공지능(AI) 에이전트 스타트업 인핸스가 개발한 AI 에이전트가 글로벌 웹 AI 에이전트 평가 벤치마크에서 구글, 오픈AI 등 글로벌 빅테크와 어깨를 나란히 했다.</p> <p contents-hash="6a3bd24926756553c2f5d16125a52238a7ce55fe042f3468f5bbbbbf1396ed90" dmcf-pid="pZHc6LVZD0" dmcf-ptype="general">인핸스는 자사 'ACT-1' 모델이 웹 기반 AI 벤치마크 'Online-Mind2Web'에서 구글 '제미나이 2.5', 오픈AI '오퍼레이터' 모델에 이어 전체 3위를 기록했다고 12일 밝혔다. 4위는 앤트로픽이 차지했다.</p> <p contents-hash="4709c57e494c7478fcc608d6ef19539efa994a64083d415855bcc468aebbc11f" dmcf-pid="U5XkPof5m3" dmcf-ptype="general">Online-Mind2Web은 최근 AI 업계에서 가장 주목받는 웹 기반 AI 벤치마크로, 단순한 문제 풀이가 아닌 현실적인 작업 수행 능력을 평가하는 데 초점을 맞춘다. AI가 실제 웹사이트에서 정보를 탐색하고, 버튼을 클릭하며, 쿠키·팝업 등 다양한 변수를 처리해 목표 결과를 달성할 수 있는지를 검증한다.</p> <p contents-hash="6e0f6ba6cc113ba55262b872ca398c2a500287bdda27d163649a30a4f71dffdf" dmcf-pid="u1ZEQg41IF" dmcf-ptype="general">기존의 정적 페이지 기반 평가인 'Mind2Web'보다 한 단계 발전한 형태로, 136개 실제 웹사이트와 300개 작업을 통해 AI의 실질적 행동 능력을 테스트한다.</p> <p contents-hash="100449b9d6a955218f68db9e5f1159268d62dcbdc48a0e7ebdc3f73915bbf867" dmcf-pid="7t5Dxa8tst" dmcf-ptype="general">지난 7월 첫 평가에서 인핸스는 45.7점을 받아 오픈AI(61.3), 앤트로픽(56.7)에 이어 3위를 차지했지만, 불과 한 달여 만에 성능을 대폭 개선해 앤트로픽을 제치고 2위에 오르기도 했다.<br></p> <figure class="figure_frm origin_fig" contents-hash="d9c7e21ba35223adc233748dd6ba64eaba44063e1a62c6d281d730c8ee36f01f" dmcf-pid="zF1wMN6FI1" dmcf-ptype="figure"> <p class="link_figure"><img alt="인핸스가 글로벌 웹 AI 에이전트 평가 벤치마크 'Online-Mind2Web'에서 2위를 기록했던 당시 현황" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202510/12/etimesi/20251012120257315wuze.png" data-org-width="700" dmcf-mid="tF5Dxa8tO7" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202510/12/etimesi/20251012120257315wuze.png" width="658"></p> <figcaption class="txt_caption default_figure"> 인핸스가 글로벌 웹 AI 에이전트 평가 벤치마크 'Online-Mind2Web'에서 2위를 기록했던 당시 현황 </figcaption> </figure> <p contents-hash="6f565af94f5a902e21a01e9e65778d0379cb47bc1031845dfc740c0e2b0768f6" dmcf-pid="q3trRjP3m5" dmcf-ptype="general">구글이 최근 'Gemini 2.5 Computer Use' 모델을 정식 공개하면서 3위로 밀려났지만, 인핸스는 구글·오픈AI·앤트로픽과 비견되는 수준의 성능을 입증했다. 인핸스는 국내 기업 중 유일하게 해당 리더보드 상위권에 올라 있다.</p> <p contents-hash="b0ad1a4284b5a93b59665c2a2a45d56a6ec7630e0dc92185e889a6a750ad3425" dmcf-pid="B64ZwTc6mZ" dmcf-ptype="general">특히 ACT-1은 애초 커머스 AI 에이전트로 설계된 모델임에도 불구하고, 쇼핑몰뿐만 아니라 여행·검색·예약 등 다양한 범용 웹 작업을 포함한 평가에서도 높은 성능을 보였다. 반복 수행의 안정성과 보안성 면에서 연구용 모델보다 현업 적용성이 높다는 것이 회사 측 설명이다.</p> <p contents-hash="99281951aa438cb8c0e617a0f6c53add53cf51c8bb79372df3d5508968c14565" dmcf-pid="bP85rykPEX" dmcf-ptype="general">인핸스는 이러한 짧은 기간 내 급격한 성능 향상이 모델 조합 개선과 강화학습·튜닝 최적화의 결과라고 밝혔다. 커머스 특화 AI에서 출발해 글로벌 시장에서도 범용 '에이전틱 AI' 모델로 대등하게 경쟁할 수 있음을 보여줬다는 평가다.</p> <p contents-hash="6056d608cb06037cb16e8ece36e0beb17106dc4bdca1d45c1c55130fedfc4ffc" dmcf-pid="KQ61mWEQOH" dmcf-ptype="general">김도균 인핸스 최고인공지능책임자(CAIO)는 “ACT-1을 개발할 때 처음부터 가격 변동, 재고 변화, 쿠폰 등 변수가 많은 커머스 환경에서도 안정적으로 동작할 수 있는 구조를 고려했다”며 “이 같은 설계 경험이 결과적으로 글로벌 톱티어 모델들과 대등한 수준으로 경쟁할 수 있는 기반이 됐다”고 말했다.</p> <p contents-hash="aeeb955290d54e973bfa64b0d779e845df54f0385ee1e4a218cd92cfe82bd9ce" dmcf-pid="9xPtsYDxIG" dmcf-ptype="general">김명희 기자 noprint@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p> 관련자료 이전 中, 韓 겨냥 ‘특허 공세’…韓, 국내외 특허 확보 ‘주력’ 10-12 다음 이창호 괴롭힌 '독사'→포커 플레이어→국대 코치 최철한 9단 10-12 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.