AI를 탁구·농구 '코치'로 만든 기술은?…사진·영상 이해하는 AI 개발 경쟁[팩플] 작성일 07-23 36 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="fMusHQDxCi"> <p contents-hash="e02ef9af7242aaa8135019424a5ea92f997782b057b1f455f084cc97ae49a5ee" dmcf-pid="8ezIZMrRvd" dmcf-ptype="general">문자뿐 아니라 사진·영상도 인식해 처리할 수 있는 인공지능(AI) 모델인 ‘비전언어모델(VLM)’이 주목받고 있다. 스포츠 분야에서 ‘탁구 로봇’을 훈련시키거나 사람의 농구 슛 자세를 즉시 인식해 피드백을 주는 수준까지 진화하면서다. 국내에서도 수기로 작성된 문서를 인식해 산업 현장의 효율성을 높이는 데 활용되고 있다. </p> <figure class="figure_frm origin_fig" contents-hash="2380612241f84fe0c15dbd1694aeb435298ac07925f36e4a612cde0d33476c69" dmcf-pid="QQprY6kPCM" dmcf-ptype="figure"> <p class="link_figure"><img alt="구글 딥마인드가 공개한 '탁구 로봇'. 탁구대 양쪽에 설치된 레일을 따라 움직이는 두 개의 로봇 팔끼리 공을 받아치며 랠리를 이어가고 있다. 사진 구글 딥마인드" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/23/joongang/20250723172304338zeno.jpg" data-org-width="560" dmcf-mid="FYCMAt6FCm" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/23/joongang/20250723172304338zeno.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 구글 딥마인드가 공개한 '탁구 로봇'. 탁구대 양쪽에 설치된 레일을 따라 움직이는 두 개의 로봇 팔끼리 공을 받아치며 랠리를 이어가고 있다. 사진 구글 딥마인드 </figcaption> </figure> <div contents-hash="9ea143553a369b00d44907506d3388a21a6a710c12dfa833d8b29cb59b248ee8" dmcf-pid="yyAKevzTlQ" dmcf-ptype="general"> <br> ━ <br> <p> 무슨 일이야 </p> <br> 구글의 인공지능(AI) 조직 구글 딥마인드는 지난 21일(현지시간) 미국 과학기술전문지 ‘전기전자공학회(IEEE) 스펙트럼’을 통해 로봇 팔끼리 탁구공을 받아치며 훈련하는 ‘탁구 로봇’을 공개했다. 공개된 관련 영상에는 탁구대 양쪽에 설치된 레일을 따라 움직이는 두 개의 로봇 팔끼리 공을 받아치며 랠리를 이어가는 장면이 담겼다. 노련한 탁수선수처럼 구석구석 날아오는 공을 여유있게 받아쳤다. </div> <p contents-hash="e11e7a8da56497c5e471945454c6c3ceed04468be52b5d4c9592538e0430a19a" dmcf-pid="YYk2JyBWT6" dmcf-ptype="general">로봇의 실력을 향상 시킨건 코치 역할을 한 VLM이었다. 이 AI 모델은 로봇 동작을 관찰해 개선 방향을 제시했고, 로봇은 이를 통해 성능을 끌어올렸다. 구글은 지난 5월 열린 I/O(연례개발자회의)에선 참가자가 농구하는 장면을 촬영한 뒤 곧바로 피드백을 주는 AI 기술을 선보이기도 했다. 사전에 학습된 좋은 슛 자세 정보를 바탕으로 현장에서 슛을 쏘는 사람의 자세를 바로 분석해주는 것이다. </p> <p contents-hash="bdee48230a08a3268f43c461648770034f85c36308f57845d5d44f7242684e6d" dmcf-pid="HHDfnYKGh4" dmcf-ptype="general">국내에서도 LG유플러스 등이 VLM으로 축구·야구 중계 영상의 하이라이트 장면을 제작해 서비스한 사례가 있다. 이 프로젝트를 주도했던 신윤호 LG유플러스 비전기술팀 선임은 “VLM은 눈이 달린 거대언어모델(LLM)”이라며 “AI 에이전트(비서)나 휴머노이드 로봇 개발에 기반이 될 수 있는 기술”이라고 말했다. </p> <div contents-hash="abb2939b6a6e3931b24394cc5d9d48d7b7f23488211c90ea884c09248195cbcf" dmcf-pid="ZZr8oH2XyV" dmcf-ptype="general"> ━ <br> <p> VLM이 왜 중요해 </p> <br> VLM은 기존 AI 모델의 주류였던 LLM에 시각 데이터 처리 능력을 더한 덕분에 그 활용 범위가 넓다. 챗GPT 개발사인 오픈AI는 지난해 ‘GPT-4o’를 활용해 시각장애인이 택시를 부르는 영상을 공개해 화제가 되기도 했다. 이 영상에서는 시각장애인이 도로를 향해 스마트폰 카메라를 비추며 ‘빈 택시를 찾아달라’고 말하자, AI가 ‘택시 한 대가 다가오니 부를 준비하라’고 안내하는 장면이 담겼다. </div> <p contents-hash="3fe28179a07e866fa42147842f430cd41f897d489bcac6ef657321b76fbbcb88" dmcf-pid="11sPaZf5y9" dmcf-ptype="general">서비스 활용도가 높아 VLM은 글로벌 빅테크는 물론 국내 AI 업계에서도 개발 경쟁이 치열하다. 네이버클라우드가 지난 4월 공개한 ‘하이퍼클로바X 시드(SEED) 3B’가 대표적이다. 엔씨(NC) AI가 지난 16일 오픈소스로 공개한 ‘바르코 비전(VARCO-VISION) 2.0’도 이미지와 텍스트를 함께 이해하고 복잡한 문서나 표도 효과적으로 처리할 수 있는 VLM 기반 AI 모델이다. 이 모델들은 각각 VLM 분야에서 글로벌 경쟁 모델과 유사하거나 우수한 성능을 보였다. <br> </p> <figure class="figure_frm origin_fig" contents-hash="ab19255c7df0c21ceacf4ee9b734dcb0e24cd953ced29b9829ce886eba9ae4b4" dmcf-pid="FFIxj18tSb" dmcf-ptype="figure"> <p class="link_figure"><img alt="엔씨(NC) AI의 ‘바르코 비전(VARCO-VISION) 2.0’ 시연 장면. 식당 메뉴판 사진과 주문 내역을 입력하자 총 결제 금액을 계산해주고 있다. 사진 NC AI" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/23/joongang/20250723172305731rtea.jpg" data-org-width="559" dmcf-mid="99NBMluSyo" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/23/joongang/20250723172305731rtea.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 엔씨(NC) AI의 ‘바르코 비전(VARCO-VISION) 2.0’ 시연 장면. 식당 메뉴판 사진과 주문 내역을 입력하자 총 결제 금액을 계산해주고 있다. 사진 NC AI </figcaption> </figure> <div contents-hash="f95178d62a4136f30e219ae9d5b03506fc3986027ba445ad86e7a7987e18aadc" dmcf-pid="02ZjhKo9Sq" dmcf-ptype="general"> ━ <br> <p> 국내에서 어떻게 활용되나 </p> <br> 국내에서도 VLM은 산업현장에서 실전에 쓰이고 있다. 물류 기업에서 수기로 적힌 송장을 인식해 처리하거나 보험 손해 사정에 필요한 처방전과 의료 영수증을 분석하는 식이다. 이 같은 서비스를 제공하고 있는 기업인 한국딥러닝 관계자는 “수기로 작성된 문서를 텍스트로 처리하는 광학문자인식(OCR) 기술만으로는 인식 오류율이 높다”며 “여기에 VLM 기술을 더하면 ‘롯데백화점’을 수기로 ‘롯백’이라고 적어도 제대로 인식할 수 있어 오류율을 크게 떨어뜨릴 수 있다”고 설명했다. </div> <div contents-hash="1b335590ec1cb2a2f4e9fbf615ee6bf50219c880e2edd5b471c8b2c61e06a3f8" dmcf-pid="Uf1cS2aVh7" dmcf-ptype="general"> ━ <br> <p> 앞으로는 </p> <br> VLM의 성능 향상은 휴머노이드 개발 속도를 높이는 데도 관건이 될 전망이다. 구글 딥마인드 로보틱스 팀의 수석 엔지니어 파나그 산케티는 "향후 제조업과 가정, 의료 등 다양한 분야에서 자율적이고 적응력 높은 로봇이 등장하는 데 있어 탁구 로봇은 작지만 강력한 출발점이 될 수 있다"고 말했다. VLM 개발 역량을 높이기 위한 조건도 있다. 국내 AI 업계 한 관계자는 “관건은 시각 데이터를 최대한으로 확보하는 것”이라며 “LLM보다 그래픽처리장치(GPU) 소모량도 많아 더 적극적 투자도 이뤄져야 한다”고 말했다. </div> <p contents-hash="cd2a039e8b8dafca331c664ba97117a127341b54b32ce7dcc01eedeb0ae2763e" dmcf-pid="u4tkvVNfSu" dmcf-ptype="general">■ 더중앙플러스 : 팩플</p> <p contents-hash="baa0ce3d0253ba89c055b260ed5f5328e8f36182fc74d5388bfd2658d2afb1d0" dmcf-pid="78FETfj4lU" dmcf-ptype="general">「 더 자세한 기사 내용이 궁금하시다면, 기사 링크를 복사해 주소창에 붙여넣으세요. </p> <p contents-hash="44af5e026871a6d8fa3ebe1f47da9502140d750c77e4d6e24a3b29c9e5f3cb9a" dmcf-pid="z63Dy4A8vp" dmcf-ptype="general">IT 천재는 이렇게 기록한다…잡생각 다 엮어주는 ‘메모앱’ <br> 노션·슬랙·옵시디언…, 사무직이라면 매일 쓰는 생산성 도구에 인공지능(AI)이 스며들었습니다. 우리는 더 이상 도구를 사용하는 게 아니라 똑똑한 파트너와 함께 ‘협업’하고 있습니다. AI가 기존 도구의 한계를 자연스럽게 보완하면서 일하는 방식도 진화하고 있습니다. 하루 종일 걸릴 일을 한 시간에 마무리하는 생산성 매직, 남의 일이 아닙니다. 팩플이 사무직의 필수품, 생산성 도구들을 AI와 결합해 쓰는 활용법을 기초부터 알려드립니다. <br> https://www.joongang.co.kr/article/25352255 </p> <p contents-hash="7e7b3048fd9bb1d5294f80042b1eaeed1b743f7cb22846532be77f61395f478a" dmcf-pid="qP0wW8c6C0" dmcf-ptype="general">퍼플렉시티 추천에 간택됐다, AI 검색에 걸린 韓기업 전략 <br> 검색의 시대, 검색 결과 상단 노출을 위해 치열한 마케팅 경쟁을 벌여 온 이들의 전장(戰場)이 서서히 옮겨가고 있다. 구글, 네이버 검색 대신 이들이 향한 곳은? 챗GPT나 제미나이, 퍼플렉시티 등 ‘인공지능(AI) 검색’ 판이다. 앞서 가는 마케터들 사이에선 최근 AI의 ‘간택’을 받을 수 있게 콘텐트를 작성하는 비기(祕器), ‘답변엔진최적화(AEO)’가 뜨고 있다. 마케팅을 전공하지 않아도, AI를 잘 몰라도 누구든 한 번에 이해할 수 있는 AEO 실전 활용법을 담았다. <br> https://www.joongang.co.kr/article/25347026 <br> 」</p> <p contents-hash="607d2d95ad0aeebe2e07915eb662be2b8b6b7ff8c1eca8c15eb98c8182885d11" dmcf-pid="BQprY6kPW3" dmcf-ptype="general">강광우 기자 kang.kwangwoo@joongang.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 중앙일보. 무단전재 및 재배포 금지.</p> 관련자료 이전 빽가 신곡 KBS 방송 부적격 판정 “가사 속 욕·상호명 때문” 07-23 다음 스트레스성 두통인 줄 알았는데 뇌졸중?…뇌혈관 건강 미리 점검해야 07-23 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.