오픈AI 거대언어모델 'o3', 과학 분야 답변 평가에서 1위 작성일 07-12 20 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="4XB6ariBlJ"> <figure class="figure_frm origin_fig" contents-hash="e3823a33fafff59b956f8a7a5acff8252f8aed4befb6805b57a3b235e50e2a22" dmcf-pid="8ZbPNmnbWd" dmcf-ptype="figure"> <p class="link_figure"><img alt="오픈AI가 개발한 'o3'가 과학 분야 질문 평가 모델에서 1위에 올랐다. 게티이미지뱅크 제공." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/12/dongascience/20250712081610399ikef.jpg" data-org-width="680" dmcf-mid="uQRGz40Cvk" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/12/dongascience/20250712081610399ikef.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 오픈AI가 개발한 'o3'가 과학 분야 질문 평가 모델에서 1위에 올랐다. 게티이미지뱅크 제공. </figcaption> </figure> <p contents-hash="9448365c1b927043005f4beadf31db361305d42acd60f62e9de04cace928e254" dmcf-pid="65KQjsLKhe" dmcf-ptype="general"> 오픈AI가 개발한 거대 언어모델(LLM) 'o3'가 과학분야 질문 답변 평가 모델에서 1위에 올랐다고 네이처가 10일(현지 시간) 보도했다. 마이크로소프트 공동창업자 폴 앨런이 설립한 비영리 인공지능 연구기관 '앨런 인공지능연구소(Allen Institute for Artificial Intelligence)'가 지난주 공개한 벤치마킹 플랫폼 '사이아레나(SciArena)'를 통해 도출된 결과다.</p> <p contents-hash="34cca733997da8384cbe81d423010ea156a4371ace4447e616ce5404682e0c02" dmcf-pid="P19xAOo9TR" dmcf-ptype="general">사이아레나는 AI 모델의 특정 작업 성능을 평가하기 위해 개발된 최신 플랫폼이다. 이번 연구 결과는 23개의 최신 LLM이 △자연과학 △공학 △보건의료 △인문〮사회과학 등 4개 영역 분야 질문에 어떻게 답변하는지 평가했다.</p> <p contents-hash="1b6a1a03ca418e069ac1d98a51472fcba959c38099481002d2caf0fc7903c75f" dmcf-pid="Qt2McIg2vM" dmcf-ptype="general">연구자 102명이 결과를 보고 각 질문에 대해 무작위로 두 모델의 답변을 듣고 어느 쪽이 더 나은지, 비슷했는지 아니면 둘 다 부족한지 등을 투표했다. 각 답변에는 앨런 인공지능연구소가 개발한 논문 검색 도구 '시맨틱 스칼라(Semantic Scholar)'에서 실제 학술 자료나 논문 등이 인용근거로 첨부돼 답변의 신뢰성과 근거를 높였다.</p> <p contents-hash="c5687a4dfc643d16616e1450000a1d4b3e6e60cc213d3f1b935e03358cac4290" dmcf-pid="xFVRkCaVyx" dmcf-ptype="general">오픈AI는 4개 부문 모두에서 1위를 차지했다. 중국 딥시크의 R1은 자연과학에서 2위, 공학에서 4위를 각각 차지했다. 구글의 제미나이(Gemini-2.5-Pro)는 자연과학 3위, 공학 5위, 보건의료 5위에 이름을 올렸다. 아르만 코한 앨런 인공지능연구소 연구원은 "인용문헌에 대한 상세한 설명과 기술적으로 정교한 답변 때문에 연구원들에게 좋은 평가를 받은 것"이라고 설명했다.</p> <p contents-hash="b5d1367d06b5bc9fda98f9c786081eb39548bf57e78753fc7977ffaf41ff9bf0" dmcf-pid="ygIY7f3IlQ" dmcf-ptype="general">대부분의 모델이 비공개이기 때문에 성능 차이의 구체적인 원인을 설명하기는 어렵다고 했다. 하지만 각 AI모델에 어떤 데이터를 얼마나 어떻게 학습했는지, 또 어떤 목적에 맞춰 최적화됐는지가 성능에 영향을 미칠 수 있었을 것이라는 의견을 덧붙였다.</p> <p contents-hash="ba18fc5fd598125c278a5f20e05fda70f068d176ebaa86fd491b6de21f2c6298" dmcf-pid="WaCGz40CWP" dmcf-ptype="general">사이아레나는 누구나 무료로 접속해 연구 질문을 입력하고 AI를 통해 도출된 답변을 비교해볼 수 있다. 모든 사용자가 답변을 평가할 수 있지만 공식 기록에는 인증된 사용자의 투표만 반영된다. 플랫폼은 사용자 조작 등 문제를 방지하기 위해 신뢰성 높은 운영 방식을 택했다고 강조했다. </p> <p contents-hash="e825c67909b1967774482d62bec5db20b3fabb357d45ba162b21f5e10e3ca515" dmcf-pid="YNhHq8phW6" dmcf-ptype="general">조너선 쿠머펠드 시드니대 AI 연구원은 "LLM에서 신뢰할 만한 과학적 답을 얻을 수 있다면, 연구자들이 최신 문헌을 따라가는데도 유용할 것"이라고 말했다. 한계와 주의점도 있다. 과학자들은 LLM이 인용 논문과 모순되는 문장을 만들거나 용어를 오해하거나, 정확한 답을 하지 못할 수도 있다는 점을 잊어서는 안 된다고 경고했다. <br> </p> <p contents-hash="11b713cf7503e02d534e14a4d05e66a379cb33a87f180b8634704f9903ff5ca1" dmcf-pid="GjlXB6Uly8" dmcf-ptype="general">[정지영 기자 jjy2011@donga.com]</p> </section> </div> <p class="" data-translation="true">Copyright © 동아사이언스. 무단전재 및 재배포 금지.</p> 관련자료 이전 ‘크레이지 리치 코리안’ 화사, 스태프에 “언니들 짜증나” 07-12 다음 이시영 '비동의 임신' 고백 파장…생식세포 사용, 윤리·법제 사각지대 도마 위 07-12 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.