'이재명' 검색량 늘면 당선 가능성 높아질까 [AI오답노트] 작성일 05-10 9 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">(30) '독감' 검색량으로 질병 예측 시도<br>혁신적이던 '구글 플루 트렌드'의 중단<br>"상관관계는 인과관계가 아니다" 교훈</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="YAJD4mXDAU"> <blockquote class="pretip_frm" contents-hash="427444b33c048ba69254f55d233cf8b03a1875fb1f49db286cb96919042f4d50" dmcf-pid="Gciw8sZwcp" dmcf-ptype="pre"> <strong>편집자주</strong> <br>실패를 살펴보는 것은 성공으로 가는 지름길입니다. 'AI오답노트'는 AI와 관련한 제품과 서비스, 기업, 인물의 실패 사례를 탐구합니다. </blockquote> <p contents-hash="c03c06a502f9bf1fd887ceb1a39a72ddb68f3749064f669450815660035e5790" dmcf-pid="Hknr6O5rc0" dmcf-ptype="general">모니터를 바라보며 키보드를 두드립니다.</p> <p contents-hash="fe8705d5a6e56d97365ab3c9b1bece81bb052d90cf55ba5d50c881340a57617d" dmcf-pid="XELmPI1mg3" dmcf-ptype="general">'독감 증상'</p> <p contents-hash="daf6896dd1d14617c5761471912613641fec42865b824ffe75b5bdc761715759" dmcf-pid="ZOAldTUlgF" dmcf-ptype="general">누군가가 이렇게 검색했다면, 그 사람은 감기에 걸렸을 확률이 높을 겁니다.</p> <p contents-hash="85cfb016d6a633aa7ac3f22044fc25edbb8ecd57093f0766d4e0c67396b21cca" dmcf-pid="5IcSJyuSjt" dmcf-ptype="general">그리고 부산에서 갑자기 이런 '독감', '독감 증상', '독감 증세'와 같은 키워드의 검색량이 늘어난다면, 이 지역에 독감이 유행한다고 볼 수 있을 겁니다.</p> <p contents-hash="b0eae5a4dc95b0952ab8454f5dba16f29cbe13231a31f16464a8ad82f142e5ea" dmcf-pid="1CkviW7va1" dmcf-ptype="general">구글의 엔지니어들은 이런 단순하면서도 기발한 아이디어를 떠올렸습니다. 그리고 금방 이를 서비스로 구현했습니다. 2008년 '구글 플루 트렌드(Google Flu Trends)'의 탄생이었죠.</p> <p contents-hash="714b3eb382cd0647146094f398b82d23526d94901444709479ef6705a9000afd" dmcf-pid="thETnYzTA5" dmcf-ptype="general">당시로서는 신선한 발상이었습니다. 기존 보건 당국이 병원 보고서를 수집하고 분석하는 동안, 구글은 이미 사람들의 검색 데이터를 통해 독감 유행을 예측하고 있었으니까요.</p> <p contents-hash="76a3a2e803e8db686b3a2b8a210d835fecbdb475f30c3028feaf82e7f32371ec" dmcf-pid="FlDyLGqygZ" dmcf-ptype="general"><strong>구글 플루 트렌드 : 검색어로 질병을 예측한다</strong></p> <figure class="figure_frm origin_fig" contents-hash="6f349a0000ba03b742875b00e6ae77237831993f2a0cf7a596d704c4882ed807" dmcf-pid="3SwWoHBWcX" dmcf-ptype="figure"> <p class="link_figure"><img alt="상승하는 그래프. 픽사베이" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/10/akn/20250510150009268pdfj.jpg" data-org-width="745" dmcf-mid="Pivw8sZwoB" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/10/akn/20250510150009268pdfj.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 상승하는 그래프. 픽사베이 </figcaption> </figure> <p contents-hash="53c4d043163fba02f7147fc14a412679b78ebe9c0ff8a7ada7399f54ddbc96d4" dmcf-pid="0vrYgXbYkH" dmcf-ptype="general">구글 플루 트렌드는 사람들이 검색창에 입력하는 독감 관련 검색어를 분석해 실시간으로 독감 유행을 예측하는 시스템이었습니다. 참신한 아이디어였죠.</p> <p contents-hash="adab654bac5de51f79fb51a97b062b915fb3e527788fe2706185e7066781f16a" dmcf-pid="pTmGaZKGoG" dmcf-ptype="general">예를 들어, 어떤 지역에서 '기침', '발열', '독감 증상' 같은 검색어가 갑자기 많아지면, 그 지역에서 독감이 유행하기 시작했다고 예측하는 방식이었죠. 기존의 전통적인 보건 당국의 독감 보고 시스템보다 1~2주 빠르게 독감 유행을 감지할 수 있었습니다.</p> <p contents-hash="da9a6fd493b5a3534244825ae3d75e88e1225b9a7893309b4acb11bb36925a7c" dmcf-pid="UysHN59HNY" dmcf-ptype="general">매주 약 5000만개의 검색어 데이터를 수집하고, 이 중 독감과 관련된 상위 45개의 검색어를 선별하여 미국 질병통제예방센터(CDC)의 독감 데이터를 기반으로 모델을 훈련시켰습니다.</p> <p contents-hash="713e99b4927b931dfae16461272f7fb20d4056339122b36fb1be4153667cf061" dmcf-pid="uWOXj12XcW" dmcf-ptype="general">초기에는 GFT가 독감 발생을 빠르게 탐지하는 데 성공하며 주목받았습니다</p> <p contents-hash="30b4ce67b87a25d0db60cc896c61b60eca446056c2008e5228939b23b521825b" dmcf-pid="7YIZAtVZky" dmcf-ptype="general">구글 플루 트렌드는 첫 공개 후 즉각적인 이목을 끌었습니다. 예측은 CDC의 실제 독감 발생 보고와 매우 유사했고, 이는 빅데이터의 힘을 보여주는 사례로 입길에 올랐죠.</p> <p contents-hash="c4b99aeece66da7d78007bca62296edb48eefb2b865f8c517c21f775b7d677c4" dmcf-pid="zGC5cFf5oT" dmcf-ptype="general"><strong>"엉터리다" 터져나오기 시작한 불만 </strong></p> <figure class="figure_frm origin_fig" contents-hash="3e8d49ea9acece16a5cee5049c0b7e59a702eb3c98c7ab391cd8058647492fc4" dmcf-pid="qHh1k341kv" dmcf-ptype="figure"> <p class="link_figure"><img alt="빅데이터를 묘사한 이미지. 픽사베이" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/10/akn/20250510150010654ctdx.jpg" data-org-width="640" dmcf-mid="xu1viW7vjz" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/10/akn/20250510150010654ctdx.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 빅데이터를 묘사한 이미지. 픽사베이 </figcaption> </figure> <p contents-hash="e7cbd879ee8615e418d9123a54cfca7ad3bc9995eac33aa93ce3b8ec47a81a83" dmcf-pid="BXltE08toS" dmcf-ptype="general">시간이 흐르면서, 점차 불만이 터져나오기 시작했습니다. "엉터리다", "너무 과장됐다"는 등의 지적이 나오기 시작했죠. 한해는 겨울 독감 유행을 실제보다 거의 두 배나 과대 예측하는 오류를 범했습니다. 2013년 구글은 모델을 재훈련시키고 미세 조정을 거듭했으나, 예측 정확도는 크게 나아지지 않았죠. 결국 2015년 구글은 이 서비스를 중단하기에 이릅니다.</p> <p contents-hash="a4f8ed1ef2065093398a4213e67c00d97b428bc75f986043073f1ddcddff0c56" dmcf-pid="bLQNbcTNkl" dmcf-ptype="general">왜 이런 일이 벌어졌을까요? 먼저 '미디어 효과'을 간과했습니다. 미디어, 언론은 뉴스를 찾아헤맵니다. 뭔가 그전에 없던 일이 조금이라도 생기면, 관심을 갖고 추적하고 보도하죠. 독감도 마찬가지입니다. 지역 사회에 약간의 독감 유행이라도 감지되면, 언론은 뉴스를 만듭니다. 일부 성급한(?) 언론은 이런 식의 헤드라인을 달겠죠.</p> <p contents-hash="ada3427dc5220510d609fd4bf3d20c3685daab48801c41038bee6efe9d6670f4" dmcf-pid="KoxjKkyjoh" dmcf-ptype="general"><strong>'콜록콜록' OO시 독감 대유행 전조…보건당국은 뭐하나<br>전염병 예산 대폭 삭감하고 인력 축소...예고된 '인재'</strong></p> <div contents-hash="39a4be66e178032ac1b7bd6b81adb157e44373e978b282928f29219001d6173e" dmcf-pid="9gMA9EWAaC" dmcf-ptype="general"> <p>이와 비슷한, 독감에 관한 뉴스 보도가 갑자기 늘어납니다. 그러면 사람들은 독감 관련 뉴스를 더 많이 찾아보게 됩니다. </p> <p>'나도 걸렸나?', '증상이 뭐지?', '어떻게 예방하지?'라는 물음이 자연히 떠오르고, 검색도 하죠. 그런데 여기에 문제가 있습니다. 이러한 검색량의 급증이, 실제 독감 환자의 증가를 반드시 의미하지는 않는다는 겁니다.</p> </div> <p contents-hash="304f2d5ed92299cfca623725224fd8385b37b49440e882eaca21a25cd4a57009" dmcf-pid="2aRc2DYcgI" dmcf-ptype="general">검색어 증가와 독감 발생 증가 사이에는 분명 상관관계가 있었습니다. 하지만 상관관계가 인과관계를 의미하는 것은 아닙니다. 사람들이 독감 증상을 더 많이 검색한다고 해서 반드시 더 많은 사람이 독감에 걸렸다는 것을 의미하지 않습니다. 검색 증가의 원인은 실제 증상 경험, 미디어 보도, 주변인의 영향 등 다양할 수 있습니다. 구글 플루 트렌드는 이런 미디어를 통한 증폭 효과를 고려하지 못했던 겁니다.</p> <p contents-hash="8c9ac93eb5306a779801f6041fa3434b12d7252f2134464d2f2f3e7828ef965c" dmcf-pid="VNekVwGkoO" dmcf-ptype="general">'계절'이라는 특수성도 있습니다. 면역력이 떨어지는 환절기, 겨울철에는 독감 외에도 다양한 계절성 질병이 늘어나는 경향이 있죠. 초기 증상도 대체로 유사합니다. 발열, 오한, 기침, 피로감 등이죠. 즉 사람들은 다양한 질병에 관해 유사한 키워드로 검색합니다. 독감만의 신호를 정확히 분리해내기 어려운 환경이죠.</p> <p contents-hash="f43fe8c400cfd04030f92a18046e4ebfd048cc75a248f8e973213d95cbfbeac7" dmcf-pid="fjdEfrHEks" dmcf-ptype="general"><strong>구글 플루 트렌드의 실패에서 얻을 수 있는 교훈</strong></p> <figure class="figure_frm origin_fig" contents-hash="ddcaab9fa518a60f7da9ed99fe21e7cab11aeaa7026169b8fab36141a3a2af5f" dmcf-pid="4AJD4mXDam" dmcf-ptype="figure"> <p class="link_figure"><img alt="많은 양의 데이터는 중요합니다. 동시에 많은 데이터를 적절히 가공·정제하고 연결하는 역량도 중요합니다. 픽사베이" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202505/10/akn/20250510150011997wlrg.jpg" data-org-width="640" dmcf-mid="W9YuOqRugu" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/10/akn/20250510150011997wlrg.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 많은 양의 데이터는 중요합니다. 동시에 많은 데이터를 적절히 가공·정제하고 연결하는 역량도 중요합니다. 픽사베이 </figcaption> </figure> <p contents-hash="7d94be426fef499c14ddaad231da2e5f52321c8aba33151b7514e09fb9bdeb77" dmcf-pid="8ciw8sZwNr" dmcf-ptype="general">비록 구글 플루 트렌드 서비스는 종료됐지만, 그 발자국은 많은 가치를 남겼습니다. 빅데이터는 물론 AI 분야에도 여러 중요한 교훈을 남겼죠.</p> <p contents-hash="e9d8e84ee5c0ab146927de637e05b82c0f66603cbbb073d04de6ab50c361b6ba" dmcf-pid="6knr6O5rkw" dmcf-ptype="general">구글 플루 트렌드의 실패 이후, 2015년 하버드 대학교의 연구팀은 기존 모델의 문제점을 분석하고 이를 개선한 'ARGO(AutoRegression with GOogle search)'라는 새로운 모델을 개발했습니다. 이 모델은 사람들의 검색 방법의 동적 특성과 질병의 계절성을 고려하는 등 더 정교한 접근법을 사용했습니다. 그 결과 CDC의 실제 보고 수치와 잘 맞는 예측 성능을 보여줬죠.실패를 통해 학습하고, 더 나은 방법을 개발할 수 있다는 것을 보여주는 전형적인 사례입니다.</p> <p contents-hash="23db2ce67ba64d5eca6cc58fe88db76f6bbebbbbf6c23fe9ed9edc523adc03a8" dmcf-pid="PELmPI1mAD" dmcf-ptype="general">또한 후세대에게 '데이터 자체만큼이나 분석 방법도 중요하다'는 사실을 상기시켜줬습니다. 빅데이터의 양이 아무리 많아도 분석 방법이 부적절하면 가치 있는 결과를 뽑아낼 수 없습니다. 구글은 엄청난 양의 검색 데이터를 가지고 있었지만, 이를 해석하고 활용하는 영역에선 실수를 보였죠.</p> <p contents-hash="5055dbe928179dea5697c77a332609e085db769122fc152bcb6ca4630a03e70c" dmcf-pid="QDosQCtsjE" dmcf-ptype="general">데이터 출처를 다양화하는 것도 중요합니다. 단일 데이터 출처에만 의존하면 한계가 있습니다. ARGO 모델이 더 정확한 예측을 할 수 있었던 이유 중 하나는 검색 데이터 외에도 다양한 정보를 활용했기 때문이죠. 전자건강기록(EHR) 정보까지 결합하면 예측 정확도를 더욱 높일 수 있다고 합니다.</p> <p contents-hash="c693ae50b607cdacf4eb9e359e9c0fca2f09eeb93356030eb969808226f16ac1" dmcf-pid="xwgOxhFONk" dmcf-ptype="general">구글 플루 트렌드의 실패는 AI와 빅데이터의 한계를 보여주는 동시에, 더 나은 방향으로 발전할 수 있는 가능성도 함께 보여줬습니다.</p> <p contents-hash="b32d00132628ad3cdb44173f721c5216a23adba0c2daa0ee6e67b08ca95d819e" dmcf-pid="yBF2y4g2gc" dmcf-ptype="general">데이터와 알고리즘 자체만으로는 충분하지 않으며, 그 데이터가 의미하는 바를 정확히 이해하고 다양한 관점에서 검증하는 과정이 필요하다는 것을 재확인했죠. AI 시스템을 개발할 때는 단순히 기술적인 측면만이 아니라, 데이터가 생성되는 사회적, 문화적 맥락까지 고려해야 한다는 점을 기억할 필요가 있습니다.</p> <p contents-hash="07f5bd64e51195dd227cc8e02a41158128ec4f08a552e722084aedb54e24ae45" dmcf-pid="Wb3VW8aVkA" dmcf-ptype="general">김동표 기자 letmein@asiae.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 아시아경제. 무단전재 및 재배포 금지.</p> 관련자료 이전 “네가 지드래곤이야?” 김학래♥임미숙, 34세 子 소개팅룩에 버럭(조선의사랑꾼) 05-10 다음 셔틀콕 레전드와 천재의 결합…박주봉 효과, 안세영을 움직이다 05-10 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.