훔친 얼굴사진 대신 동의받은 얼굴로…AI 편향 줄이는 첫 ‘윤리 데이터세트’ 작성일 11-06 44 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="B8kXgCMVMv"> <figure class="figure_frm origin_fig" contents-hash="e1dab324cc2b78112b45e7d6b4116b557e205bc4b2983de8f53dd762520f4431" dmcf-pid="b6EZahRfdS" dmcf-ptype="figure"> <p class="link_figure"><img alt="소니AI 연구팀이 세계 81개국에서 동의받은 얼굴 사진을 모아 AI의 시각 편향을 분석하거나 교정할 수 있는 ‘윤리적 데이터세트(FHIBE)’를 구축했다. FHIBE 데이터세트의 예시 이미지로 사람의 얼굴과 몸에 위치한 주요 지점을 표시하고 구역별로 색을 나눠 표시했다. 각 부위에는 ‘얼굴’, ‘팔’, ‘장신구’처럼 이름이 붙어 있으며 얼굴과 전신은 빨간색과 파란색 사각형으로 구분된다. 네이처 제공 " class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/06/dongascience/20251106154754848qbwy.png" data-org-width="680" dmcf-mid="zsw1jSd8Ly" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/06/dongascience/20251106154754848qbwy.png" width="658"></p> <figcaption class="txt_caption default_figure"> 소니AI 연구팀이 세계 81개국에서 동의받은 얼굴 사진을 모아 AI의 시각 편향을 분석하거나 교정할 수 있는 ‘윤리적 데이터세트(FHIBE)’를 구축했다. FHIBE 데이터세트의 예시 이미지로 사람의 얼굴과 몸에 위치한 주요 지점을 표시하고 구역별로 색을 나눠 표시했다. 각 부위에는 ‘얼굴’, ‘팔’, ‘장신구’처럼 이름이 붙어 있으며 얼굴과 전신은 빨간색과 파란색 사각형으로 구분된다. 네이처 제공 </figcaption> </figure> <p contents-hash="3ec2517bd049ef1070ae1870401f25572059f8fae6f270fe340f5f4257440db9" dmcf-pid="KPD5Nle4dl" dmcf-ptype="general">얼굴 인식 AI는 인터넷 공간에서 동의 없이 긁어 모은 수천만 장의 사진을 학습해 개발된다. 그 결과 특정 인종이나 성별, 연령대를 과소·과대 표현해 판단을 내리는 ‘AI 편향’ 문제가 끊이지 않았다. </p> <p contents-hash="33777de2a46df1622cc42602a6d365303a099b0044b83e0e77c738147db289a8" dmcf-pid="9Qw1jSd8ih" dmcf-ptype="general">소니AI 연구팀이 이런 구조적 문제 해결에 앞장섰다. 연구팀은 세계 81개국 1981명의 ‘동의받은 얼굴’ 1만318장으로 구성된 새 데이터세트인 ‘공정한 인간 이미지 평가 기준(FHIBE, Fair Human-Centric Image Benchmark)’을 공개했다. 연구 결과는 국제학술지 ‘네이처(Nature)’에 5에 실렸다.</p> <p contents-hash="9e236ff749d12a31c4bc9638768d13c514d1812cda29414d03909f0db58fff00" dmcf-pid="2xrtAvJ6JC" dmcf-ptype="general">연구팀은 사진 제공자에게 프로젝트의 목적과 잠재적 위험을 충분히 설명하고 ‘철회 가능한 동의’ 절차를 거쳐 이미지를 수집했다. 모든 데이터는 주요 개인정보 보호 규정을 준수해 확보됐다.</p> <figure class="figure_frm origin_fig" contents-hash="2864b2408194617bac7860d6890149717ab1e09513c9730952cad3a0d91c02eb" dmcf-pid="VXfABeFYJI" dmcf-ptype="figure"> <p class="link_figure"><img alt="FHIBE에 담긴 다양한 정보 중 한 가지 예시를 보여주는 그림으로 주석을 단 사람의 나이와 대명사, 출신 지역 등을 함께 표시됐했다. 네이처 제공" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/06/dongascience/20251106154756169glfn.png" data-org-width="680" dmcf-mid="ql9a7x5TRT" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/06/dongascience/20251106154756169glfn.png" width="658"></p> <figcaption class="txt_caption default_figure"> FHIBE에 담긴 다양한 정보 중 한 가지 예시를 보여주는 그림으로 주석을 단 사람의 나이와 대명사, 출신 지역 등을 함께 표시됐했다. 네이처 제공 </figcaption> </figure> <p contents-hash="dff2362a6e0789ded13cdde96190214934c277f1f288fab5917426a1d2bd9550" dmcf-pid="fZ4cbd3GeO" dmcf-ptype="general">사진 제공자들은 나이, 대명사(he/she/they), 조상이 살던 지역, 피부색, 모발색 등 인구통계 정보를 직접 기입해 데이터의 정확성과 다양성을 높였다.</p> <p contents-hash="bc4e7d47414c42bd5a0a421905493ec3d4c18634964a1716b23107855b1d9585" dmcf-pid="458kKJ0HMs" dmcf-ptype="general">연구팀은 여기에 조명, 카메라 각도, 촬영 거리, 배경 환경, 표정, 포즈 등 AI 인식에 영향을 미치는 요소까지 70여 개 항목으로 세밀하게 주석을 달았다. 이 덕분에 FHIBE는 AI가 사람의 외형뿐 아니라 조명, 환경, 카메라 세팅 같은 주변 요인에 어떻게 편향되는지도 진단할 수 있는 세계 최초의 ‘다층 윤리 데이터세트’가 됐다.</p> <p contents-hash="702e78a6258bd51dc63efa3fe59474004fe4fc14d009c386b0363baf4e866eb4" dmcf-pid="816E9ipXJm" dmcf-ptype="general">FHIBE로 기존 얼굴 인식 모델을 평가한 결과 AI는 밝은 피부와 젊은 연령대, 아시아계 인물에서 높은 정확도를 보였다. 반면 노년층·어두운 피부·아프리카계 인물의 경우 인식 오류가 빈번했다. 머리카락이 없거나 일반적이지 않은 헤어스타일을 가진 인물이나 ‘he/him’ 대명사를 사용하는 사람에게서도 오차율이 높았다. </p> <p contents-hash="144e079d5ff14c82941496f38105431ecdb771b40a2979a9883671fafa3c6939" dmcf-pid="6tPD2nUZJr" dmcf-ptype="general">특히 오픈AI의 CLIP은 ‘남성=기본값’으로 인식하는 경향을 보였고 아프리카계 인물을 ‘야외 환경’이나 ‘농촌 배경’과 연관 지어 해석하는 편향을 드러냈다. 세일즈포스 리서치의 BLIP-2는 인물의 호감 이유를 묻는 질문에 “그녀가 여자이기 때문에”와 같은 성별 중심 응답을 자주 내놓았다. 직업을 묻는 질문에는 ‘마약상’, ‘도둑’, ‘성매매 여성’ 등 인종·성별 고정관념이 드러나는 단어가 반복됐다.</p> <p contents-hash="a2bed3a4932a018adb4ab7969f9689bc03337ae3e07f9fa25de09bacc5171641" dmcf-pid="PFQwVLu5Jw" dmcf-ptype="general">FHIBE 구축 과정은 단순히 얼굴 이미지를 모으는 작업이 아니었다. 연구팀은 동의 받지 않은 인물의 얼굴이나 개인정보를 ‘자동 인페인팅(inpainting)’ 기술로 제거했다. 자동 인페인팅 기술은 원하는 부분을 생성형 AI를 이용해 새로운 이미지로 채우는 기술이다. 또 모든 이미지를 손수 다시 검수해 개인정보가 남지 않도록 했다. </p> <p contents-hash="82f4fedc55fe5456d19e1b6a4041d10e2406d6aea54ffa7552709b93beaf78f3" dmcf-pid="Q3xrfo71nD" dmcf-ptype="general">사진 제공자, 주석 작업자, 품질 검수자 모두에게 해당 지역의 법정 최저임금 수 배에 달하는 보수를 지급했다. 이미지 제공자의 보수 중간값은 최저임금의 약 12배다. </p> <p contents-hash="a6bf66c067a962aa005564b30130ce627d95938761eb32caf61435ab279d6134" dmcf-pid="x0Mm4gztLE" dmcf-ptype="general">데이터는 언제든 철회할 수 있으며 철회된 이미지는 유사 조건의 새 데이터로 대체돼 세트의 규모와 다양성이 유지된다. </p> <p contents-hash="5baa93bf15ce1b243cf0ad0c065e8feb55d68a69b20b1a787c9bc4b1e4680117" dmcf-pid="yNWKhFEodk" dmcf-ptype="general">FHIBE는 앞으로 AI 모델의 편향을 검증하고 교정하는 ‘윤리 평가기준’으로 공개 활용될 예정이다. 다만 AI 모델 학습에는 사용할 수 없으며 오직 ‘공정성 평가 및 편향 완화 목적’에 한해 접근이 허용된다.</p> <p contents-hash="bd8028de450f406ad9d7ffb168d8cc3659d63170359299594f0f5183e63eaee0" dmcf-pid="WjY9l3Dgec" dmcf-ptype="general"><참고자료></p> <p contents-hash="80ab4a34ebd1bef179970f5a68a938666d93e577f530941cc76bcc81f62085e3" dmcf-pid="Yw16YzIkJA" dmcf-ptype="general">- doi.org/10.1038/s41586-025-09716-2 </p> <p contents-hash="f669aac25dcf10940cd4aabde28223418272005da4545cfece98c82d4ec6dd2f" dmcf-pid="GrtPGqCEnj" dmcf-ptype="general">[조가현 기자 gahyun@donga.com]</p> </section> </div> <p class="" data-translation="true">Copyright © 동아사이언스. 무단전재 및 재배포 금지.</p> 관련자료 이전 김범준 COO "네이버, 검색에서 AI 에이전트로 정체성 바꾸겠다" 11-06 다음 포티투마루 "AX G1으로 가야"...'AI 대격변 세미나'서 발표 11-06 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.