AI가 ‘눈’이 되는 시대…멀티모달 기술로 CCTV가 수사 파트너 된다 작성일 10-30 57 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">AI가 CCTV 영상 분석해 실종·범죄자 찾아<br>이미지와 텍스트 연결 학습 멀티모달 AI 고도화<br>오픈AI 멀티모달 한계 넘어선 韓 연구 CVPR 발표<br>기업도 연구 활발…에스원, AI CCTV 기술 고도화</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Qjahgblwm1"> <p contents-hash="7c9c95c10a5d44318e33f8b156da2e75b5442e02b667fcb8041b3f2a7c7dc94a" dmcf-pid="xeMkxFEoI5" dmcf-ptype="general"> [이데일리 안유리 기자] 수사·치안 영역에서 인공지능(AI) 기술이 적극 도입·활용되는 가운데, 특히 CCTV 관제 분야를 중심으로 AI 도입이 확산하고 있다. 세계 각국에서 기술 경쟁도 치열해지는 가운데, 국내에서도 관련 연구가 활발하다. </p> <p contents-hash="784d18d487072b4707320b76b97e95aa777c0058f119d8639972d70b13358232" dmcf-pid="yGW7ygztrZ" dmcf-ptype="general">AI CCTV를 가능하게 핵심 기술은 이미지와 텍스트를 연결해 학습하는 멀티모달 AI이다. 가장 널리 쓰이는 멀티모달 모델은 오픈AI의 ‘CLIP(Contrastive Language Image Pre-training)’이다. 초창기 모델로 영상 인공 지능 분야에서 널리 활용되고 있지만, CLIP은 입력 텍스트를 77개 토큰으로 제한해 긴 문장을 인식하지 못하는 한계가 있다. </p> <p contents-hash="cfc57e452b1f3bfaf69252638aa688ca40dc9928457e9699235698a81795e406" dmcf-pid="WHYzWaqFDX" dmcf-ptype="general">최근 국내 연구진이 이를 극복한 기술을 개발, 세계적인 인공지능 학회인 CVPR 2025에 발표해 주목을 받았다. 엄찬호 중앙대 첨단영상대학원 교수 연구팀(최현규 학부생과 장영균 구글 딥마인드 박사가 공동 참여)이 개발한 ‘GOAL(Global-local Object Alignment Learning)’은 기존 CLIP 대비 데이터를 100분의 1만 쓰고 학습 시간도 짧지만, 훨씬 더 긴 이미지 문장을 인식하며 이미지를 효율적으로 검색한다. </p> <p contents-hash="f8dc03103e0d19cb9d501cc516f7959474e43b229189408bfd636a71d68d01d8" dmcf-pid="YXGqYNB3wH" dmcf-ptype="general">엄찬호 교수는 “이미지를 잘게 쪼개고 CLIP이 기존에 원래 알고 있던 사전 지식을 활용해서 두 매칭 관계를 풀었다”면서 “목격자가 범죄자의 인상착의를 ‘남성이고 체크색 셔츠를 입었고 턱수염이 있다’는 식으로 길게 진술해도 CCTV에서 찾을 수 있는 관제시스템을 목표로 연구를 시작했다”고 말했다.</p> <div contents-hash="445b4628c03ca0e01c28d8ec66551b7efd0033e1720d13def76aeb42447ec264" dmcf-pid="GZHBGjb0DG" dmcf-ptype="general"> <strong>관제 인력은 감소 CCTV는 급증…AI 역할 필수 <br><br></strong> </div> <figure class="figure_frm origin_fig" contents-hash="abecedb9aa438e0f93dd438be016cf0e80743427b14bc7304d09d6b9fc7a2409" dmcf-pid="H5XbHAKpsY" dmcf-ptype="figure"> <p class="link_figure"><img alt="에스원 R&D센터 연구원이 AI 에이전트를 시연하고 있다 (사진=에스원)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202510/30/Edaily/20251030052650197zeij.jpg" data-org-width="670" dmcf-mid="6gdweprNwF" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202510/30/Edaily/20251030052650197zeij.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 에스원 R&D센터 연구원이 AI 에이전트를 시연하고 있다 (사진=에스원) </figcaption> </figure> <figure class="figure_frm origin_fig" contents-hash="ef8ca8e87c2bbc98da1c9a4e7b3abbaf80597a2e8a5bfa7e73979c0df5b864a8" dmcf-pid="X1ZKXc9UOW" dmcf-ptype="figure"> <p class="link_figure"><img alt="[이데일리 김정훈 기자]" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202510/30/Edaily/20251030052651521umls.jpg" data-org-width="670" dmcf-mid="PUJrdUmjIt" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202510/30/Edaily/20251030052651521umls.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> [이데일리 김정훈 기자] </figcaption> </figure> <div contents-hash="1229f796e8ca9803375bc34fce0bbb1d58db8ced7c5b5d711acf886a6fdc9368" dmcf-pid="Z1ZKXc9Usy" dmcf-ptype="general"> 관제 장비는 늘고 인력은 줄면서, AI CCTV의 역할은 더 커질 전망이다. 행정안전부에 따르면 2024년 기준 전국 공공기관에 설치된 CCTV는 약 195만 대로 매년 약 10%씩 증가해왔다. 반면 이를 직접 감시·운영하는 관제 인력은 2011년 9200여명에서 2024년 4093명으로 절반 이하로 줄었다. <br> <br>범죄 수사 뿐 아니라 실종, 군집 분석 마케팅 등 AI CCTV의 활용 사례는 무궁무진하다. 최근에는 경기도 안양에서 AI CCTV가 1초만에 88세 실종 노인을 찾은 사례도 있었다. <br> <br>민간에서도 AI CCTV 연구 개발이 활발하다. 물리보안 전문기업 에스원은 최근 자사 지능형 CCTV 시스템에 ‘AI 에이전트’를 탑재했다. AI 에이전트는 위급 상황 발생 시 표준운영절차(SOP)를 실시간으로 안내하고, 대화형 영상 검색 및 CCTV 제어 서비스를 제공한다. AI CCTV가 “지하실 입구 카메라 5분 전 영상 보여줘“라는 음성을 인식하고, “창고에서 남성이 쓰러졌습니다”라는 알리며 119 연락 등 행동 지침을 알려준다. <br> <br>에스원은 실시간 영상 분석과 동시에 상황별 대응 시나리오를 생성하기 위해 실제 현장 데이터를 학습시켰고, 음성 명령만으로 CCTV를 제어하는 대화형 인터페이스는 자연어 이해 기술과 영상 검색 알고리즘의 통합 최적화를 통해 구현했다. <br> <br>에스원 R&D센터 영상솔루션팀 이동성 부사장은 “AI 에이전트 개발을 위해 이상상황 감지 등 보안과 안전 분야에 특화된 영상언어모델(VLM)을 내재화했고, 이를 기반으로 자연어 처리 기술을 결합한 멀티모달 AI Agentic 아키텍처를 구축했다”고 말했다. <br> <br>안유리 (inglass@edaily.co.kr) </div> </section> </div> <p class="" data-translation="true">Copyright © 이데일리. 무단전재 및 재배포 금지.</p> 관련자료 이전 '나는 솔로' 28기 현숙, 정숙과 신경전…"영수 자꾸 건드려 짜증" 10-30 다음 [스포츠박사 기자의 스포츠용어 산책 1590] 북한에선 왜 ‘MVP’를 ‘가장 훌륭한 선수’라고 말할까 10-30 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.