AI, 덧셈보다 뺄셈 훨씬 자주 틀린다...왜 그럴까? 작성일 11-06 47 목록 <div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="FDR0S0wacv"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="3wepvprNAS" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="f9d65db4a032eb3d9094f9df77266a6d3346f861f63e8f899bf17ac0bde1e41a" dmcf-pid="0rdUTUmjjl" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/06/ZDNetKorea/20251106172815943lnbu.jpg" data-org-width="640" dmcf-mid="11efFfWIjy" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/06/ZDNetKorea/20251106172815943lnbu.jpg" width="658"></p> </figure> <p contents-hash="e8ff66e9714406bf0c8fccac9aa965b0a2cc85bea2fba09ee52af01d11ea05cd" dmcf-pid="pmJuyusAoh" dmcf-ptype="general">챗GPT 같은 AI가 덧셈 문제는 거의 완벽하게 풀지만, 뺄셈 특히 답이 음수로 나오는 계산에서는 이상한 실수를 반복한다는 연구 결과가 나왔다. 독일 자를란트대학교와 미국 브라운대학교 등 공동 연구팀은 8개의 주요 AI 모델을 조사한 연구 논문을 보면, AI가 답의 숫자는 맞게 계산하면서도 앞에 마이너스 부호를 빼먹는 독특한 오류를 가지고 있었다.</p> <p contents-hash="8b6f921bb37d35c47052746c34772e47f1e50f12654f123aca1398d219bd1295" dmcf-pid="Usi7W7OcgC" dmcf-ptype="general"><strong>같은 난이도인데 뺄셈만 30~50점 낮아</strong></p> <p contents-hash="577822ecc0b0c67450b6e4fdb6aa23247523a0ead883f27624f5c78a32baf0fb" dmcf-pid="uOnzYzIkoI" dmcf-ptype="general">연구팀은 구글의 Gemma-2, 중국의 Qwen2, 메타의 Llama-3, AI2의 OLMo-2 등 4개 모델 패밀리의 8가지 AI를 대상으로 덧셈과 뺄셈 실력을 비교했다. 각 AI가 한 번에 인식할 수 있는 숫자 범위 안에서 균형 잡힌 문제를 만들어 테스트했고, 같은 질문을 5가지 방식으로 바꿔가며 물어봤다.</p> <p contents-hash="a19e687858edfc7482f9d2564f738e2bd72690e07bedd109119107e6dc130ca7" dmcf-pid="7ILqGqCEjO" dmcf-ptype="general">결과는 충격적이었다. Qwen2-8B 모델은 덧셈에서 거의 100점을 받았지만 뺄셈에서는 52점에 그쳤다. OLMo-2-32B 모델도 덧셈 99점, 뺄셈 57점이었다. 여러 AI에서 뺄셈 점수가 덧셈보다 30~50점 낮았다. 뺄셈은 순서를 바꾸면 답이 달라지는 비가환 연산이다. 또한 뺄셈은 자릿수를 추적하는 차입 과정이 중요한데, 처음부터 훈련된 트랜스포머 모델이 이런 긴 시퀀스의 자릿수 추적에서 어려움을 겪는다는 선행 연구가 있다.</p> <figure class="figure_frm origin_fig" contents-hash="178a0a585372f145bcb2cc99451b6041441d7cbeae96c1df35e71e7a146e9b6c" dmcf-pid="zCoBHBhDNs" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202511/06/ZDNetKorea/20251106172817213mapk.jpg" data-org-width="640" dmcf-mid="t49WEWLxkT" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202511/06/ZDNetKorea/20251106172817213mapk.jpg" width="658"></p> </figure> <p contents-hash="9fc807cd06431c71837c29e15e088d151d3c52a2f39bcb21b313fb20ec8f378b" dmcf-pid="qhgbXblwjm" dmcf-ptype="general"><strong>답이 음수로 나올 때만 망가진다</strong></p> <p contents-hash="c2ad11ced4e420ad2e61ee2fb5ef966e5770a6da2856341b693b1d2d0f6ee97f" dmcf-pid="BlaKZKSrNr" dmcf-ptype="general">연구팀이 문제를 a>b(큰 수에서 작은 수 빼기)와 a<b(작은 수에서 큰 수 빼기) 두 그룹으로 나눠서 분석했더니 극명한 차이가 드러났다. 거의 모든 AI가 a>b일 때는 성공했지만, a<b일 때는 정확도가 급락했다. 예를 들어 Qwen2-8B, Gemma-2-27B, Llama-3.1-70B 모델은 답이 양수일 때는 거의 완벽했지만, 답이 음수일 때는 5% 미만의 정확도를 보였다. 혹시 'a-b' 형식 때문에 헷갈리는 건지 확인하려고 '-b+a' 형식으로도 물어봤는데 결과는 똑같았다. 이는 AI의 실패가 뺄셈 연산 자체가 아니라 음수 정수를 최종 답으로 만들어내는 데 있어서의 체계적 어려움임을 확인시켰다.</p> <p contents-hash="f07ba3a3496cd2e6ca70fd0fe9860109adb60ff88fecb87545f402c42ba2e6e7" dmcf-pid="bSN959vmNw" dmcf-ptype="general"><strong>숫자는 맞는데 마이너스 부호만 빠뜨려</strong></p> <p contents-hash="4c88beab284afc70be3b3b9e5cd8a63e12d26e455b7f55a1ff00b3f43bf4ec38" dmcf-pid="KHwPUPXSkD" dmcf-ptype="general">정확히 어디서 실수하는지 알아보기 위해 연구팀은 마이너스 부호를 무시하고 숫자 크기만 맞는지 채점해봤다. 그러자 점수가 극적으로 상승했다. OLMo-2-13B 모델은 완전히 맞은 답이 4%였는데, 부호를 빼고 보니 96%가 맞았다. Llama-3-70B도 0.2%에서 49%로, Qwen2-8B는 4%에서 37%로 올랐다. '-b+a' 형식에서도 동일한 패턴이 관찰됐다. 이는 AI가 뺄셈의 크기는 정확히 계산하면서도 마이너스 부호를 체계적으로 생략한다는 것을 의미한다. 연구팀은 이것이 단순한 실수가 아니라 모델의 근본적인 한계라고 지적했다.</p> <p contents-hash="71a14c2836625a546ac803261872a5fb2b1831ab8ca14a26e2360a921481e5df" dmcf-pid="9XrQuQZvaE" dmcf-ptype="general"><strong>AI는 답을 알면서도 못 쓴다</strong></p> <p contents-hash="d8ed06ddf1f64445c01f600e29f45a91f263c1dae13287e2d46f3eaa3cc48afb" dmcf-pid="2Zmx7x5Tak" dmcf-ptype="general">가장 흥미로운 발견은 AI 내부를 들여다본 실험에서 나왔다. 연구팀은 Gemma-2 9B, Llama-3.1-8B, Qwen2-8B 세 모델의 내부 신호를 읽어내는 간단한 판별 장치를 만들었다. 이 장치는 AI가 계산 과정에서 만들어내는 신호 패턴을 보고 "이 답이 양수인지 음수인지" 맞춰보는 역할을 했다. 놀랍게도 이 판별 장치는 거의 완벽하게 맞췄다. Gemma-2 9B와 Qwen2-8B는 100%, Llama-3.1-8B는 99% 이상을 기록했다. 같은 실험을 5번 반복했는데도 결과가 거의 똑같이 나왔다.</p> <p contents-hash="9c5130be3cd9b018d26881857d00208b88cd74839b6c2c306a00e466aa9af375" dmcf-pid="V5sMzM1ykc" dmcf-ptype="general">이 말은 AI가 답을 쓸 때는 마이너스 부호를 빼먹지만, 속으로는 답이 음수인지 양수인지 정확히 알고 있다는 뜻이다. AI 안에서는 올바른 정보를 갖고 있지만, 이를 글자로 바꿔서 내보낼 때 마이너스 부호가 사라지는 것이다. AI가 '아는 것'과 '말하는 것' 사이에 단절이 생기는 셈이다.</p> <p contents-hash="ca9ccb9a3beeaca3aa4e8a7c0faf9e0fcbdbfd200d56b3babd24e2d92aa22668" dmcf-pid="f1ORqRtWAA" dmcf-ptype="general"><strong>예시를 보여줘도 효과 제한적</strong></p> <p contents-hash="e4cb34ca7d57a5a94104502a2ae5c8b6e45e6ff42f320a7dad56d600618b8a81" dmcf-pid="4tIeBeFYjj" dmcf-ptype="general">이 문제를 해결하려고 연구팀은 두 가지 방법을 시도했다. 첫 번째는 AI에게 문제를 풀기 전에 미리 푼 예제를 보여주는 것이었다. 3개, 5개, 10개씩 예시를 보여주며 테스트했다. 결과는 들쭉날쭉했다. Llama-3.1-8B는 예시 없이 8.1%였던 정확도가 예시 5개를 보여주자 31.5%로 올랐다. 크지는 않지만 의미 있는 개선이었다. Qwen2-14B도 처음에는 나아졌지만 예시 3개 이후로는 더 이상 좋아지지 않았다. 반면 Gemma-2-27B나 Llama-3.1-70B 같은 큰 모델들은 결과가 불안정하고 일관성이 없었다.</p> <p contents-hash="037c2a540168d3ac258dce94e9904d16b6599d330a081da7d1944fb97e72273e" dmcf-pid="8FCdbd3GaN" dmcf-ptype="general">거의 모든 AI에서 마이너스 부호를 무시하고 채점하면 90% 이상이 맞았다. 이는 AI가 숫자 크기는 제대로 계산하지만 부호만 자꾸 빼먹는다는 뜻이다. 예시를 보여주는 방법은 일반 AI에서 실수를 어느 정도 줄이지만, 전체적으로 효과가 크지 않고 들쭉날쭉하다는 결론이다.</p> <p contents-hash="8112590a630826049bc8328ebcb4e4cc7e6026bd5d86c4dcd6911fe2cc9b314f" dmcf-pid="63hJKJ0Hja" dmcf-ptype="general"><strong>특별 훈련받은 AI는 거의 완벽</strong></p> <p contents-hash="876eae0bee682fddd52286eecf4a5da5f5eb08ff4a93aed551e3bd36d498be7b" dmcf-pid="P0li9ipXgg" dmcf-ptype="general">두 번째 방법은 특별 훈련을 받은 AI를 테스트하는 것이었다. '인스트럭션 튜닝'이라고 불리는 이 특별 훈련은 AI가 사람의 지시를 더 잘 따르도록 추가로 가르치는 과정이다. 이렇게 훈련받은 AI들은 MATH와 GSM8k 같은 수학 시험에서 좋은 성적을 낸다고 알려져 있다. 결과는 놀라웠다. 거의 모든 특별 훈련 AI가 90% 이상의 정확도를 기록했고, Gemma-2-9B, Gemma-2-27B, Qwen2-8B, Qwen2-14B는 100%를 받았다. 일반 버전에서 완전히 실패했던 모델들도 특별 훈련 후에는 성능이 크게 향상됐다.</p> <p contents-hash="18abbc1e05c12d12d826115249d796e59b99c1e1887058025e1d8ef45afcb0a8" dmcf-pid="QpSn2nUZjo" dmcf-ptype="general">연구팀은 이런 개선이 특별 훈련 과정에서 나온다고 보았다. 실제로 OLMo-2 모델의 훈련 자료를 조사해보니, MATH 문제집, GSM8k 문제집, Tülu 3 데이터가 포함되어 있었다. 이 모든 자료에는 작은 수에서 큰 수를 빼는 문제(답이 음수로 나오는 경우)가 들어있었다. OLMo-2가 특별 훈련 중에 이런 문제들을 학습해서 성능이 좋아진 것으로 추측된다.</p> <p contents-hash="64f5236978c5c55f39ab1b38b25db313bd4034a818fbbac789db6a866d8d5f29" dmcf-pid="xUvLVLu5NL" dmcf-ptype="general"><strong>여러 자리 숫자에서도 똑같은 문제</strong></p> <p contents-hash="2ab18b2178886dd247b33a712d2101d902f9e395cdc346984ff3390df0a93a88" dmcf-pid="yAP1I1cngn" dmcf-ptype="general">연구팀은 한 자리 숫자뿐 아니라 여러 자리로 이루어진 긴 숫자에서도 실험했다. AI는 긴 숫자를 여러 조각으로 나눠서 인식하는데, 최대 3조각까지 나뉘는 숫자를 테스트했다. 긴 숫자를 다룰 때는 덧셈 성적도 떨어졌지만, 뺄셈이 더 어렵다는 경향은 그대로였다. Gemma-2-27B는 긴 숫자 덧셈에서 99%를 받았지만 뺄셈에서는 51%였다. Qwen2-8B와 Qwen2-14B도 덧셈 99%, 뺄셈 49%로 비슷한 차이를 보였다.</p> <p contents-hash="ecc6df5fd86a986ab28da98e127df884e8634b5835e3a1fec7a857f8ba74028f" dmcf-pid="WcQtCtkLoi" dmcf-ptype="general">큰 수에서 작은 수를 뺄 때와 작은 수에서 큰 수를 뺄 때의 차이도 긴 숫자에서 똑같이 나타났다. Qwen2-14B는 답이 양수일 때(a>b) 100%를 기록했지만, 답이 음수일 때(a<b)는 38%로 뚝 떨어졌다. 마이너스 부호를 빼먹는 경향도 긴 숫자에서 똑같이 관찰됐다. OLMo-2-32B는 답이 음수인 문제에서 25%만 맞혔지만, 부호를 빼고 채점하니 71%가 맞았다.</p> <p contents-hash="861de86826b52ae3fdfa232d03e615a692a1423289eb87ffd1f3209da5a40e36" dmcf-pid="YkxFhFEocJ" dmcf-ptype="general"><strong>FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="e2a14f5e088c316661df3ff16b11ede34f866e40607eb5957ea47f98a7ec6210" dmcf-pid="GEM3l3Dgod" dmcf-ptype="general"><strong>Q1. AI가 덧셈은 잘하는데 뺄셈은 못하는 이유가 뭔가요?</strong></p> <p contents-hash="c800090e7d245811261500af7730232e157c51f43fdc8e9b57784ca25b9af2e9" dmcf-pid="HM7hahRfge" dmcf-ptype="general">A. 뺄셈은 순서를 바꾸면 답이 달라집니다(3-5와 5-3은 다름). 또한 뺄셈할 때는 자릿수를 빌려오는 계산이 중요한데, 이전 연구들에 따르면 AI가 긴 숫자의 자릿수를 추적하는 데 어려움을 겪는다고 합니다. 특히 답이 음수로 나올 때 AI는 숫자는 맞게 계산하면서도 앞에 마이너스 부호를 자꾸 빼먹습니다.</p> <p contents-hash="422c60bdc4c3d3e264dac9a4d6f1776a585c02d467c8795b88c80e40ce72a444" dmcf-pid="XRzlNle4jR" dmcf-ptype="general"><strong>Q2. AI가 마이너스 부호를 빼먹는 이유는 뭔가요?</strong></p> <p contents-hash="48f1cb076ea42313913022c5fb6838ddae901a5716af11112bdb4dfc8b5ce9b0" dmcf-pid="ZeqSjSd8kM" dmcf-ptype="general">A. 연구팀이 AI 내부를 분석한 결과, AI는 속으로 답이 음수인지 양수인지 정확히 알고 있었습니다. 하지만 이 정보를 글자로 바꿔서 내보낼 때 마이너스 부호가 사라집니다. AI가 '아는 것'과 '말하는 것' 사이에 단절이 있는 셈입니다.</p> <p contents-hash="09902aa550a253561b2ea0454671fcc94295becfa79e3fa68dae66e6350c5ced" dmcf-pid="5dBvAvJ6kx" dmcf-ptype="general"><strong>Q3. 이 문제를 해결할 방법이 있나요?</strong></p> <p contents-hash="3f731e6661c999432bfced0d8027e44823c96278eff10c3457ae0c5a6370be30" dmcf-pid="1JbTcTiPAQ" dmcf-ptype="general">A. 특별 훈련이 가장 효과적입니다. 사람의 지시를 더 잘 따르도록 추가로 가르치는 '인스트럭션 튜닝'을 받은 AI는 90% 이상, 일부는 100%의 정확도를 보였습니다. 반면 문제 풀기 전에 예시를 보여주는 방법은 효과가 작고 들쭉날쭉했습니다.</p> <p contents-hash="96a40d6c716565978f8ad2b3f96a5a40d6b727a09872cb60f168ee656ddf5142" dmcf-pid="tiKykynQcP" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="e23057b7be08ceb7667adeb1b9523744c3bc5f5553e2e8321f96c80f2f5ffb15" dmcf-pid="Fn9WEWLxk6" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p> 관련자료 이전 중국은 왜 캐주얼 게임에 강한가…“데이터 기반 마케팅 속 답 있다” 11-06 다음 모든 펨토셀 인증서 똑같아…KT, 총체적 부실 11-06 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.