카카오의 멀티모달 AI 카나나-o, 한국어 벤치마크 챗gpt 앞섰다 작성일 12-12 26 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="Kg8nEM5TXN"> <figure class="figure_frm origin_fig" contents-hash="ced188b07140872f97f9214e65449b6d26fb3cc9c10f152e3ba26f22ba4ab94f" dmcf-pid="9a6LDR1y5a" dmcf-ptype="figure"> <p class="link_figure"><img alt="(카카오 제공)/뉴스1" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/12/NEWS1/20251212094112907salq.jpg" data-org-width="1400" dmcf-mid="bYACHwfzYj" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/12/NEWS1/20251212094112907salq.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> (카카오 제공)/뉴스1 </figcaption> </figure> <p contents-hash="bf2c74004ccce45598f5d340e455a41acd6dffa621862ef28c8534af19940574" dmcf-pid="2NPowetWtg" dmcf-ptype="general">(서울=뉴스1) 김정현 기자 = 카카오가 한국어와 한국 문화를 가장 잘 이해하는 고도화된 멀티모달 인공지능(AI) 기술 연구 성과를 발표했다. 벤치마크 평가 결과, 영어 음성 성능에서 GPT-4o와 유사한 수준을, 한국어 음성 인식 및 합성, 감정 인식 능력에서는 월등히 높은 수준을 기록했다.</p> <p contents-hash="6c02589d6ba6a0ecdc2225904e671dc203b16d19efcc42794bc65c97a14f3c7b" dmcf-pid="VjQgrdFYHo" dmcf-ptype="general">카카오는 12일 테크블로그를 통해 한국적 맥락 이해에 최적화된 통합 멀티모달 언어모델 '카나나-o(Kanana-o)와 멀티모달 임베딩(Embedding) 모델 '카나나-v-임베딩'(Kanana-v-embedding)의 개발 과정과 성능을 공개했다.</p> <p contents-hash="88bfd90edb309fd267ac9105acaed88cd7da69b9d2bcce0e65f92090d74c1ade" dmcf-pid="fAxamJ3GXL" dmcf-ptype="general">카나나-o는 텍스트와 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 통합 멀티모달 언어모델이다. 글로벌 모델 대비 한국어 맥락 이해에서 높은 성능을 보유하고, 사람처럼 자연스럽고 풍부한 표현력을 갖추고 있는 것이 특징이다. </p> <p contents-hash="fd487c766f81f9e0089bbd74a042f01d1891cdbb332751e8c9b366b22f2e3ed5" dmcf-pid="4cMNsi0H1n" dmcf-ptype="general">카카오는 카나나-o의 지시이행 능력을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악할 수 있도록 개선했다. </p> <p contents-hash="3d13a42f667a4f5b11a454437a294f89baadff17ad8535b780453359e7c9f901" dmcf-pid="8RBQoVTsXi" dmcf-ptype="general">자체 구축한 데이터셋으로 학습을 진행했다. 이로써 다양한 모달리티의 입출력에 대해서도 기존 언어모델의 성능을 유지하고, 단순 질의응답을 넘어 △요약 △감정 및 의도 해석 △오류 수정 △형식 변환 △번역 등 다양한 과업을 수행할 수 있도록 성능을 끌어올렸다. </p> <p contents-hash="0b7de988b5ed9c6e727e2dae7eecedcfe9ba1d6fc1d75983e39d2e435275d7c6" dmcf-pid="6ebxgfyOZJ" dmcf-ptype="general">또 고품질 음성 데이터와 직접 선호 최적화(DPO) 기술을 적용해 억양·감정·호흡 등을 정교하게 학습시켰다. 기쁨·슬픔·분노·공포 등 상황 별 생생한 감정은 물론 미세한 음색·어조 변화 등에 따른 감정 표현 능력까지 향상했다. </p> <p contents-hash="7fbe9698840d14c8f6977f9bd8505c50376f9e7ce8a27f59ab762139d423528c" dmcf-pid="PdKMa4WI5d" dmcf-ptype="general">호스트와 게스트가 대화를 주고받는 팟캐스트 형태의 데이터셋을 구축해, 끊김없이 자연스럽게 이어지는 멀티턴(Multi-turn) 대화도 가능해졌다. </p> <p contents-hash="1bf8e1582cf48f8b0c758f7748b797b97722249f890e3762c218bf84494d3fe7" dmcf-pid="QJ9RN8YCYe" dmcf-ptype="general">카카오는 향후 더욱 자연스러운 동시 대화(Full-duplex)와 상황에 맞는 사운드스케이프(Soundscape)를 실시간 생성할 수 있는 진화된 모델로 발전시킬 예정이다. </p> <p contents-hash="a2ac4e0010d4322fa71616fa0c9bea9a6e15f406b0e6fd7a3814a1b97cec99b2" dmcf-pid="xi2ej6GhtR" dmcf-ptype="general">함께 공개된 카나나-v-embedding은 텍스트와 이미지를 동시에 이해해 처리할 수 있는 한국형 멀티모달 모델이다. 텍스트로 이미지를 검색하거나, 사용자가 선택한 이미지와 관련된 정보를 검색하고, 이미지가 포함된 문서 검색 등을 지원한다. </p> <p contents-hash="ed59fbcaba9f2487972830bdf9d333f29d7973054489b5f80eaa688017002583" dmcf-pid="yZOGpSe41M" dmcf-ptype="general">이 모델은 실제 서비스 적용을 목표로 개발되어 한국어와 한국 문화에 대한 이해도가 탁월하다. 경복궁, 붕어빵 같은 고유명사는 물론, 오타가 포함된 단어도 문맥을 파악해 정확한 이미지를 찾아준다. 또 '한복 입고 찍은 단체 사진'처럼 복합적인 조건도 정확히 이해해, 조건의 일부에만 해당하는 사진을 걸러낼 수 있는 높은 변별력을 갖췄다. </p> <p contents-hash="d011e8731ce96359bfc30ef7717e7f320cd3bbab788076e798e407f92d29679b" dmcf-pid="W5IHUvd8Zx" dmcf-ptype="general">현재 카카오는 카나나-v-embedding를 내부에서 광고 소재의 유사도를 분석 및 심사하는 시스템에 적용 중이다. 향후 비디오나 음성으로 범위를 확대해 더욱 다양한 서비스에도 적용할 계획이다. </p> <p contents-hash="33af444304afedb40fa2c56e485f836208bada9a5c44d40fa680fb08eb909d0a" dmcf-pid="Y1CXuTJ6XQ" dmcf-ptype="general">김병학 카카오 카나나 성과리더는 "실제 서비스 환경을 통해 사용자들의 일상 속 AI 기술 경험을 만들어 나가고, 사람처럼 상호작용 할 수 있는 AI의 구현에 주력해 갈 것"이라고 말했다.</p> <p contents-hash="0ae119f7a2da70426b6fce7ae2556b9b82eb31c2ceecc1629cdd7340d8edcc7e" dmcf-pid="GthZ7yiPtP" dmcf-ptype="general">한편 카카오는 모바일 기기 등 온디바이스 환경에서 동작할 수 있는 멀티모달 모델의 경량화 연구를 진행 중이다. 이와 더불어 MoE(Mixture of Experts) 구조를 적용한 고성능, 고효율 모델인 '카나나-2' 개발을 준비하고 있다.</p> <p contents-hash="4ab14341b3ce3ef56d9b40321d315fc199e075920e3cefd0067cb8ee5b1f932d" dmcf-pid="HFl5zWnQY6" dmcf-ptype="general">Kris@news1.kr </p> </section> </div> <p class="" data-translation="true">Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.</p> 관련자료 이전 마싱루이, 中중앙경제공작회의도 불참…당 기율위 조사 가능성 12-12 다음 취소→취소→드디어 경기 성사…'UFC 플라이급 빅뱅' 열린다! 2위 로이발 vs 6위 캅, 2025년 UFC 마지막 대회서 맞대결 12-12 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.