모델은 어떻게 평가되는가: 벤치마크, 그리고 그것이 거짓말하는 이유

벤치마크 점수는 측정처럼 보이지만, 사실은 주장입니다. 모델 평가가 실제로 어떻게 이루어지는지, 그리고 높은 숫자가 왜 여전히 당신을 오도할 수 있는지 살펴봅니다.

research2026-05-06 16:14 KST·편집장·7 분

벤치마크 점수는 측정처럼 보입니다. 숫자가 있고, 리더보드가 있고, 승자가 있습니다. 그러나 벤치마크는 측정이라기보다 주장에 가깝습니다. 그것은 신중하게 고른 하나의 작업에서의 성능이 일반적인 능력에 관해 무언가를 말해 준다고 주장합니다. 때로는 그 주장이 성립합니다. 흔히 성립하지 않습니다. 모델이 어떻게 평가되는지 — 그리고 그 추론이 어디서 무너지는지 — 를 이해하는 것이, 리더보드를 읽는 일과 거기에 속아 넘어가는 일을 가릅니다.

이것은 벤치마크가 쓸모없다는 주장이 아닙니다. 벤치마크는 필수적입니다. 공유된 시험이 없다면 모델 품질에 관한 모든 주장은 마케팅이 될 것입니다. 요점은, 신중한 사람이 어떤 통계든 읽는 방식으로 벤치마크를 읽자는 것입니다. 무엇을 측정하는지, 무엇을 빠뜨리는지, 어떻게 조용히 오도할 수 있는지를 알면서요.

벤치마크란 정말로 무엇인가

리더보드를 걷어내면, 벤치마크는 세 가지입니다. 고정된 작업 집합, 그 작업에서 모델을 돌리는 방법, 그리고 답을 채점하는 규칙. 그게 전부입니다. 점수는 그 특정 채점 규칙 아래, 그 특정 작업들에서 모델이 어떻게 했는지를 요약합니다.

여기서의 비약 — 그리고 이것은 비약입니다 — 은 "이 작업들에서 잘했다"에서 "이런 종류의 일을 잘한다"로 넘어가는 것입니다. 그 일반화는 벤치마크가 당신이 신경 쓰는 실제 작업을 대표하는 만큼만 강합니다. 자기완결적인 퍼즐로 이루어진 코딩 벤치마크는 크고 지저분한 코드베이스를 유지보수하는 일에 대해 거의 말해 주지 못할 수 있습니다. 짧고 깔끔한 지문으로 된 독해 시험은 길고 모순적인 문서에 대해 거의 말해 주지 못할 수 있습니다. 숫자는 실재합니다. 일반화는 가설입니다.

누가, 왜 벤치마크를 만드는지 잠시 멈춰 생각해 볼 가치가 있습니다. 어떤 것은 연구 질문의 진척을 추적하려는 학술적 노력입니다. 어떤 것은 자기 모델이 순위에 오르는 바로 그 팀들이 만듭니다. 어느 것도 자연이 행한 중립적 행위가 아닙니다. 각각은 무엇이 좋은 것으로 쳐지는지, 어떤 작업이 주목받을 가치가 있는지, 무엇이 무시되는지에 대한 선택을 새겨 넣습니다. 점수를 읽을 때, 당신은 그 시험을 만들 가치가 있다고 결정한 이의 가치관도 함께 읽는 것입니다. 그렇다고 벤치마크가 부정직한 것은 아닙니다. 다만 벤치마크는 그 저자가 중요하다고 여긴 것을 측정하며, 그것이 당신에게 중요한 것과 다를 수 있다는 뜻입니다.

하나의 숫자가 보여 주는 것보다 더 많이 감추는 이유

리더보드는 순위를 매길 수 있도록 모델을 하나의 수치로 압축합니다. 압축이 핵심이자 동시에 위험의 전부입니다. 헤드라인 점수가 같은 두 모델도 어디서 성공하고 실패하는지에서는 엄청나게 다를 수 있습니다. 하나는 전반에 걸쳐 한결같고, 다른 하나는 쉬운 항목에서는 탁월하지만 어려운 것에서는 속수무책이어서, 평균을 내면 같은 자리에 떨어지는 식으로요.

하나의 숫자는 보통 가장 중요한 질문들도 지워 버립니다. 가장자리에서는 어떻게 행동하는가? 어떻게 실패하는가 — 우아하게, 아니면 자신만만한 헛소리로? 같은 작업을 다르게 표현해도 일관적인가? 그 어느 것도 한 자리 숫자로의 붕괴에서 살아남지 못합니다. 이것이 전체론적(holistic) 평가 노력들이 단일 순위가 아니라 여러 차원 — 정확도, 견고성(robustness), 보정(calibration) 등 — 을 보고하자고 주장하는 이유입니다. 모델은 하나의 곡면이고, 리더보드는 그것을 한 각도에서 찍은 사진입니다.

오염(Contamination): 시험이 학습으로 새어 들 때

모델 평가에서 가장 좀먹는 문제는 오염입니다. 시험 문제, 또는 그와 가까운 사촌이 모델의 학습 데이터에 등장하는 것이죠. 모델은 공개 인터넷의 방대한 영역으로 학습하고, 인기 있는 벤치마크는 바로 그 인터넷에 살고 있습니다. 모델이 사실상 답을 본 셈이라면, 높은 점수는 능력이 아니라 암기를 측정합니다. 시험지를 미리 받은 학생과 같죠.

오염은 탐지하기 어렵고 배제하기도 어렵습니다. 그래서 눈에 띄는 벤치마크 결과는 한 가지 구체적인 질문을 받을 자격이 있습니다. 모델이 이걸 전에 봤을 가능성은 없는가? 이는 또한 새롭거나, 보류해 두었거나(held-out), 자주 교체되는 시험이 왜 가치 있게 여겨지는지를 설명합니다. 오래된 공개 벤치마크는 압도하지만 갓 작성된 동등한 시험에서는 비틀거리는 모델이 있다면, 감탄할 게 아니라 의심해야 하는 이유이기도 합니다.

시험에 맞춰 가르치기

답이 새어 나가지 않더라도, 벤치마크는 자신이 측정하는 것을 왜곡합니다. 일단 어떤 벤치마크가 모두가 지켜보는 점수판이 되면, 노력은 그 점수를 끌어올리는 쪽으로 흐릅니다. 때로는 진짜로 모델을 개선해서, 때로는 그 벤치마크의 특이점에 최적화해서요. 그 결과는, 본래 추적하려던 바탕 능력은 뒤처진 채로 시험에서 좋아 보이게 조정된 모델입니다.

이것은 오래된 발상입니다. 어떤 척도가 목표가 되는 순간, 그것은 좋은 척도이기를 멈춥니다. AI는 여기에 유난히 노출되어 있습니다. 벤치마크가 공개되어 있고, 경쟁이 치열하며, "시험을 잘함"과 "작업을 잘함" 사이의 간극은 숫자가 올라가고 있을 때 무시하기 쉽기 때문입니다. 점수가 오른다는 건 능력이 오른다는 뜻일 수도, 시험 솜씨가 오른다는 뜻일 수도 있습니다. 리더보드는 어느 쪽인지 말해 주지 못합니다.

시간이 흐르면 그 효과가 보입니다. 얼마 전만 해도 모델을 진짜로 시험에 들게 하던 벤치마크가, 모두가 상위권 점수를 받는 벤치마크가 됩니다. 꼭 바탕 문제가 풀려서가 아니라, 그 시험이 노력이 흘러든 알려진 대상이 되어서요. 벤치마크가 포화되면, 흥미로운 정보는 사라집니다. 더 이상 좋은 것과 위대한 것을 구분할 수 없고, 분야는 더 어려운 시험으로 옮겨 갑니다. 그 순환은 건강하지만, 동시에 한계까지 차오른 벤치마크는 거의 아무것도 말해 주지 않는다는 것, 그리고 어제의 어려운 시험이 흔히 오늘의 보여 주기용으로 풀린 문제라는 것을 일깨워 줍니다.

채점이 빠뜨리는 것

답을 어떻게 채점하는가가 벤치마크가 볼 수 있는 것 자체를 형성합니다. 명백한 정답이 하나뿐인 작업 — 객관식 항목, 정확 일치 — 은 채점하기 쉽고, 그 이유로 벤치마크를 지배합니다. 그러나 실제 세계의 많은 일에는 정답이 하나만 있지 않습니다. 잘 쓰기, 명료하게 설명하기, 적절히 신중하기, 모호한 요청 다루기 같은 것 말이죠. 이런 것들은 자동 채점에 저항하므로 과소 측정되고, 과소 측정된 자질은 과소 최적화됩니다.

채점자 자신이 모델일 때는 새로운 왜곡이 나타납니다. 정확성과 무관하게 특정 스타일, 길이, 또는 자신감을 선호할 수 있습니다. 그러니 점수를 믿기 전에, 그 채점 규칙이 애초에 무엇을 감지할 수 있는지 물어보세요. 벤치마크는 자기 채점자가 볼 수 없는 모든 것에 대해 눈이 멀어 있고, 그 사각지대가 흔히 일에서 가장 중요한 바로 그 부분입니다.

리더보드를 정직하게 읽는 법

몇 가지 변치 않는 습관이 벤치마크를 오도하는 대신 유용하게 지켜 줍니다.

점수가 무엇인지가 아니라, 작업이 무엇인지 물으세요. 무엇을 요약한 것인지 알기 전까지 숫자는 아무 의미도 없습니다.
작은 격차를 불신하세요. 상위권의 작은 차이는 흔히 진짜 순서가 아니라 잡음입니다.
하나의 순위보다 여러 차원을 선호하세요. 견고성과 실패 행동이 흔히 최고 정확도보다 더 중요합니다.
익숙한 공개 벤치마크일수록 오염을 의심하세요. 특히 결과가 너무 깔끔해 보일 때요.
당신 자신의 작업을 가장 믿으세요. 정말로 중요한 유일한 평가는, 당신의 실제 작업을 닮은 예시에서 이루어지는 평가입니다.

마지막 항목이 가장 중요하고 또 가장 자주 무시됩니다. 공개 리더보드는 출발점 필터이지 판결이 아닙니다. 당신의 문제가 진짜 벤치마크입니다.

정리

벤치마크는 측정으로 차려입은 주장입니다. 없어서는 안 되지만 — 점수는 특정 채점 규칙 아래 특정 작업에서 모델이 어떻게 했는지를 말해 줄 뿐이고, "일반적으로 잘함"으로의 비약은 당신이 직접 확인해야 할 가설입니다. 오염, 시험에 맞춰 가르치기, 그리고 한 숫자로의 압축 모두가 높은 점수로 하여금 실제 능력을 앞질러 가게 합니다. 어떤 통계든 읽듯이 벤치마크를 읽으세요. 무엇을 측정하는지, 무엇을 감추는지, 그리고 당신이 실제로 해내야 할 일을 반영하는지 물으세요. 그런 다음, 당신 자신의 것을 돌려 보세요.

#benchmarks#evaluation#leaderboards#measurement

1차 출처

Stanford CRFM — HELM (Holistic Evaluation of Language Models)NIST — AI evaluation and measurement