카카오 “한국어·감정 이해는 챗GPT보다 월등”…‘카나나-o’ 성능 보니 작성일 12-12 34 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="YlXTUvd8aD"> <div contents-hash="379d6bc8f6e8412f69e3bddf563b1341a9b3994472a81f5b7e5a61b55057cc7b" dmcf-pid="GSZyuTJ6NE" dmcf-ptype="general"> 카카오가 사람처럼 보고, 듣고, 말하며 한국어와 한국 문화를 가장 잘 이해하는 고도화된 자체 멀티모달 인공지능(AI) 기술의 연구 성과를 공개했다. <br> </div> <figure class="figure_frm origin_fig" contents-hash="41bc032395c05f050541db2ba42cc3e4d7ff73a1a7b027e95d30583548e19c1c" dmcf-pid="Hv5W7yiPak" dmcf-ptype="figure"> <p class="link_figure"><img alt="사진=연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/12/segye/20251212101942041arjd.jpg" data-org-width="800" dmcf-mid="xgU125jJgm" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/12/segye/20251212101942041arjd.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 사진=연합뉴스 </figcaption> </figure> <div contents-hash="f5b4390ec445cc1015e0f133c1b4b80f833eb011dba314b6d543f924202ba751" dmcf-pid="XT1YzWnQjc" dmcf-ptype="general"> 카카오는 12일 테크블로그를 통해 △한국적 맥락 이해에 최적화된 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’와 △멀티모달 임베딩 모델 ‘카나나-v-임베딩’의 개발 과정과 성능을 공개했다. </div> <p contents-hash="c06366f566a48caf79cad28b64ca1a361d4d83a394c6ef2787b815df0577fe6f" dmcf-pid="ZytGqYLxgA" dmcf-ptype="general">카카오에 따르면 카나나-o는 텍스트와 음성, 이미지를 동시에 이해하고 실시간으로 답변한다. 지난 5월 첫 공개 당시 . 글로벌 모델 대비 한국어 맥락 이해에서 압도적 성능과 함께 사람처럼 자연스럽고 풍부한 표현력을 갖춰 화제가 됐다.</p> <p contents-hash="f0433f79e94a72fc026b14ce7bb60aeff71e71ee4589ad56c96a9f63b305f6fd" dmcf-pid="5WFHBGoMAj" dmcf-ptype="general">카카오는 기존 멀티모달 모델들이 텍스트 입력 시 강점을 보이지만 음성 대화에선 답변이 다소 단순해지고 추론 능력이 떨어진다는 한계에 주목했다. 카카오는 이를 보완하기 위해 카나나-o의 지시이행 능력을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악할 수 있도록 개선했다. 또 단순 질의응답을 넘어 요약, 감정 및 의도 해석, 오류 수정, 형식 변환, 번역 등 다양한 과제를 수행하게끔 성능을 끌어올렸다.</p> <div contents-hash="0df49eb2bdda036b205a4d221a1820fcfb3fb38bde4e5d551feb6a5195fc7dfa" dmcf-pid="1Y3XbHgRAN" dmcf-ptype="general"> 카나나-o는 고품질 음성 데이터와 직접 선호 최적화(DPO) 기술을 적용해 억양, 감정, 호흡 등을 정교하게 학습시켰다. 그 결과 기쁨, 슬픔, 분노, 공포 등 상황별 생생한 감정은 물론 미세한 음색, 어조 변화 등에 따른 감정 표현 능력까지 향상시켰다. 호스트와 게스트가 대화를 주고받는 ‘팟캐스트’ 형태의 데이터셋을 구축해, 끊김 없이 자연스럽게 이어지는 멀티턴(Multi-turn) 대화도 가능해졌다. <br> </div> <figure class="figure_frm origin_fig" contents-hash="b19f8561478bcc8d0d9982dec75198c7eda08ad172dd07282a02d28266402db0" dmcf-pid="tG0ZKXaeAa" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/12/segye/20251212101942260poto.jpg" data-org-width="1200" dmcf-mid="yWrAvjB3Nr" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/12/segye/20251212101942260poto.jpg" width="658"></p> </figure> <figure class="figure_frm origin_fig" contents-hash="cecfad4adab82e093ce5d5cd2c1f8599c73b124733706f699983587d2c677ac5" dmcf-pid="FHp59ZNdNg" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/12/segye/20251212101942499eipw.jpg" data-org-width="1200" dmcf-mid="W8P2n9Srgw" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/12/segye/20251212101942499eipw.jpg" width="658"></p> </figure> <div contents-hash="387b7d40e4154fcfbd0a8d00d7ad530e0f430d9d297a8ee59908981a8d7024fa" dmcf-pid="3XU125jJAo" dmcf-ptype="general"> 카카오는 “카나나-o 벤치마크 평가 결과 영어 음성 성능에선 GPT-4o와 유사한 수준”이라며 “한국어 음성 인식 및 합성, 감정 인식 능력에선 월등히 높은 수준”이라고 말했다. 이어 “향후 더 자연스러운 동시 대화와 상황에 맞는 사우드스케이프(소리환경)를 실시간 생성할 수 있는 진화된 모델로 발전시킬 예정”이라고 덧붙였다. </div> <p contents-hash="aae520027c732ee0bead048883c997bbfe4e230946b203292dd269be94733cb6" dmcf-pid="0DlmXr4qaL" dmcf-ptype="general">한편 함께 공개된 카나나-v-임베딩은 이미지 기반 검색의 핵심 기술로, 텍스트와 이미지를 동시에 이해해 처리할 수 있는 한국형 멀티모달 모델이다. 텍스트로 이미지를 검색하거나, 사용자가 선택한 이미지와 관련된 정보를 검색하고 이미지가 포함된 문서 검색 등을 지원한다.</p> <p contents-hash="6468b9c3678e229158d866e1278a8bd8b6f5abd8d3b9e23ec7885850cc6ace26" dmcf-pid="pwSsZm8BAn" dmcf-ptype="general">김병학 카카오 카나나 성과리더는 “카나나는 단순한 정보 나열 수준을 넘어 사용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI가 될 수 있도록 한국적 맥락의 이해와 표현력을 높여가고자 한다”며 “실제 서비스 환경을 통해 사용자들의 일상 속 AI 기술 경험을 만들고 사람처럼 상호작용 할 수 있는 AI의 구현에 주력할 것”이라고 말했다.</p> <p contents-hash="c1cfb642a9adae807b0ae100921e05025f95595e5c2f8e5a6e6635490150512b" dmcf-pid="UrvO5s6bAi" dmcf-ptype="general">이동수 기자 ds@segye.com</p> </section> </div> <p class="" data-translation="true">Copyright © 세계일보. 무단전재 및 재배포 금지.</p> 관련자료 이전 스트롱라이프, ‘바이젝 월드피트니스’에 AI 영양 솔루션 ‘유웰나우’ 도입 12-12 다음 포드, 중국 전기차 공습에 ‘실리콘밸리식 특공대’ 12-12 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.