"가상공간서 시행착오 학습"…오픈AI·앤트로픽·구글 'RL짐' 경쟁 작성일 09-20 56 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">빅테크·스타트업 'AI 에이전트 강화학습 체육관' 대규모 투자<br>"업무 맡기려면 현실같은 가상서 AI 학습"…'매트릭스' 오나</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="zX1dcqzTX9"> <figure class="figure_frm origin_fig" contents-hash="497bc4e69c9310fc968ba4e87c8f053e0fa9b053919af89899f09260720bf758" dmcf-pid="qZtJkBqyXK" dmcf-ptype="figure"> <p class="link_figure"><img alt="글로벌 빅테크 강화학습 체육관 투자 경쟁 관련 제미나이 2.5프로 플래시 이미지 생성 요청 이미지" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202509/20/NEWS1/20250920060132227powk.jpg" data-org-width="1024" dmcf-mid="uWqAC68t5V" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202509/20/NEWS1/20250920060132227powk.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 글로벌 빅테크 강화학습 체육관 투자 경쟁 관련 제미나이 2.5프로 플래시 이미지 생성 요청 이미지 </figcaption> </figure> <p contents-hash="835c62748b26f70e82e393981e4c2b574d181483229fdc877ed2071065707be1" dmcf-pid="B5FiEbBWGb" dmcf-ptype="general">(서울=뉴스1) 김민석 기자 = 오픈AI·앤트로픽 등 주요 빅테크 기업들이 AI 에이전트 성능을 효율적으로 높이기 위한 대규모 강화학습(RL) 환경 구축에 대규모 투자 경쟁을 펼치고 있다.</p> <p contents-hash="6917044ded8ab246998b3d1626877919b2dc5633a73a1add45d5c459c72e4ab7" dmcf-pid="b13nDKbYtB" dmcf-ptype="general">'RL 체육관'(RL Gym)으로 불리는 가상 환경은 인공지능(AI)이 실제 업무 환경이 아닌 가상 공간에서 시행착오를 통해 학습할 수 있도록 설계된 공간이다. 영화 '매트릭스'에서 구현된 가상현실의 초기버전 개념이다.</p> <p contents-hash="21f15e3410a3c4099768dcc7512c07f62efc7aabada2aad66c242df2384e5475" dmcf-pid="Kt0Lw9KG5q" dmcf-ptype="general">강화학습은 구글 딥마인드가 2016년 알파고 개발에 사용한 기법으로 범용 트랜스포머 모델 훈련으로 확대되고 있다.</p> <p contents-hash="4db79703daf4114ec87c41028d92a98667d04b9897cfddf3fdc6708b309e8408" dmcf-pid="9Fpor29Htz" dmcf-ptype="general">20일 IT 업계에 따르면 앤트로픽은 내년 RL 체육관 구축을 위해 10억 달러(약 1조 3885억 원) 투자를 계획하고 있다. 앤트로픽은 세일즈포스·젠데스크 등과 손잡고 시뮬레이션 앱에서 AI 모델을 훈련시키고 있다.</p> <p contents-hash="4b395f85ffb13f05902a422a78d37bc1387a3dd0602c13c46d420d2130ca0f88" dmcf-pid="23UgmV2XZ7" dmcf-ptype="general">오픈AI은 올해 데이터 RL 환경 투자 비용 10억 달러에 RL 체육관 비용을 포함했다. 2030년엔 해당 투자를 80억 달러까지 확대할 방침이다.</p> <figure class="figure_frm origin_fig" contents-hash="570cbbc7cc8217e0c6dce17236e9bcfbdce0d34d644c3fad2dcdd709fddeceac" dmcf-pid="V0uasfVZtu" dmcf-ptype="figure"> <p class="link_figure"><img alt="구글 딥마인드가 올해 2월 발표한 데이터 효율적인 RL을 위한 Transformer World 모델 개선" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202509/20/NEWS1/20250920060133743uwek.jpg" data-org-width="1400" dmcf-mid="7Sk02hCn12" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202509/20/NEWS1/20250920060133743uwek.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 구글 딥마인드가 올해 2월 발표한 데이터 효율적인 RL을 위한 Transformer World 모델 개선 </figcaption> </figure> <p contents-hash="7951457131acb3d02ad5eb2d9bace7f1b5bcba8476a119945f576213c6b423ea" dmcf-pid="fp7NO4f5HU" dmcf-ptype="general">구글 딥마인드도 올해 2월 트랜스포머 기반 월드 모델을 활용한 RL 기법으로 데이터 효율성에서 최첨단 성과를 달성했다고 발표했다.</p> <p contents-hash="527af775ae19f7fa3766f3e8113cdf3b9a3891bcd49584499311471a865be27b" dmcf-pid="4oN1BsmeZp" dmcf-ptype="general">AI 에이전트가 현실 업무를 수행하려면 실제 세상과 유사한 환경에서 학습해야 한다는 인식이 확산하면서 마이크로소프트(MS)·메타와 딥시크를 비롯한 중국 기업도 각자의 기술 접근법으로 강화학습 환경 구축에 나서고 있다.</p> <p contents-hash="87daf6be8452734571ebfa0c8f03feb2eb1a1e6819383cbbeb35cc19928d634b" dmcf-pid="8gjtbOsdG0" dmcf-ptype="general">RL 체육관(환경) 서비스 스타트업도 대규모 투자를 유치하고 있다.</p> <p contents-hash="4b8a0a3cd887b8e506f1a9446a3f750a244d5eefc67ac4ef621a2a84e32ff5ef" dmcf-pid="6aAFKIOJX3" dmcf-ptype="general">올해 설립한 메커나이즈워크는 소프트웨어 엔지니어 업무를 시뮬레이션하는 RL 환경을 구축해 앤트로픽 등에 공급하고 있다. AI 에이전트가 가상공간에서 이메일·슬랙·코딩 도구 등을 활용해 실제 개발자처럼 작업하며 학습한다.</p> <p contents-hash="f29aeb7f51c9b7a7816efc1153a7f372f32d10a0090cc1ddcc991ebb6a574f4d" dmcf-pid="PNc39CIitF" dmcf-ptype="general">클렘 델랑게 허깅페이스 CEO 등이 투자에 참여한 프라임인텔렉트는 오픈소스 개발자들이 RL 체육관을 구축·공유하는 플랫폼 '환경 허브'를 출시했다. 환경 허브는 RL 환경의 허깅페이스를 표방한다. </p> <p contents-hash="a71e0848ef131082e6949f78172e5d414af7a310649de909f46de23a91ac18c1" dmcf-pid="Qjk02hCn1t" dmcf-ptype="general">스케일AI·서지·메르코 등 기존 데이터 라벨링 전문기업들도 RL 환경 구축으로 사업을 확장하고 있다.</p> <p contents-hash="91124a44f06cf7d409343a8e343e3655f632a932fa2f1d70a97e901ab5603f4b" dmcf-pid="xAEpVlhLG1" dmcf-ptype="general">전문가들은 RL 환경 구축은 현실과 동일한 대규모 가상환경을 구현해야 해 기존 AI 훈련과는 차원이 다른 복잡성을 가진다고 설명했다. 일각에선 AI 에이전트가 실제 작업 완료 없이 보상을 얻는 등의 기술적 한계가 아직 존재한다고 지적했다.</p> <p contents-hash="53a9e47e6966d41636ac269e3c8aba867fb6b4408d2c0e86549659a689cc0898" dmcf-pid="yUzjI841t5" dmcf-ptype="general">업계 관계자는 "RL 체육관이 AI 모델 강화학습 훈련을 넘어 실제 업무 자동화를 위한 필수 인프라로 인식되면서 투자가 집중되고 있다"며 "스케일링 법칙의 한계를 돌파할 새로운 돌파구로도 주목받고 있다"고 말했다.</p> <p contents-hash="d9cd5bda949c9772721402b6a72a7a16f77e311db8e25e6e172e51379c2f0773" dmcf-pid="WuqAC68tHZ" dmcf-ptype="general">ideaed@news1.kr<br><br><strong><용어설명></strong><br><br>■ RL 체육관<br>RL 체육관(RL Gym)은 인공지능(AI)·강화학습(RL) 에이전트가 실제 환경이 아닌 가상 환경에서 스스로 시행착오를 거치며 학습할 수 있도록 설계된 가상 공간이다. 이곳에서 에이전트는 선택한 행동을 적용하고 새로운 상태(state)와 보상(reward)을 반환한다. 이 과정을 반복해 에이전트는 최고의 보상을 얻을 수 있는 정책을 학습한다. 주요 구성 요소는 환경 초기화·행동 적용·관측 공간·액션 공간 등이다.<br><br>■ 범용 트랜스포머<br>범용 트랜스포머(Universal Transformer)는 텍스트·이미지·음성 등 다양한 데이터 유형을 처리할 수 있는 딥러닝 신경망 아키텍처를 의미한다. 자연어 처리(NLP)뿐 아니라 컴퓨터 비전·시계열 예측·음성 인식 등 분야에 활용된다.<br><br>■ 강화학습<br>강화학습(Reinforcement Learning·RL)은 인공지능(AI) 등이 스스로 시행착오를 거치며 최적의 행동을 학습하도록 설계된 머신러닝(기계학습) 기법이다. 에이전트는 주어진 환경에서 다양한 행동을 수행하고 그 결과를 얻는 보상을 바탕으로 누적 보상을 높이는 의사결정 전략을 스스로 발전시킨다.<br><br> </p> </section> </div> <p class="" data-translation="true">Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.</p> 관련자료 이전 [금주 신작·업뎃] 어벤저스급 개발진 '더 스타라이트', 광전사 리부트 '리니지M' 09-20 다음 kt-한화생명, 'LCK 결승 직행' 갈림길…T1-젠지, 진 팀은 '롤드컵' 고난길 09-20 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.