벤치마크를 넘어선 평가: 사람 심사자와 모델 심사자

벤치마크는 점수 매기기 쉬운 것을 측정합니다. 열린 과제에는 판단이 필요합니다. 사람에게서든, 사람을 대신하는 모델에게서든. 둘 다 오도할 수 있습니다.

research2026-05-06 16:53 KST·편집장·7 분

오랫동안 머신러닝의 진전은 벤치마크로 측정되었습니다. 정답이 알려진 고정된 데이터셋에서, 모델의 점수는 그저 얼마나 자주 정답을 맞히는가입니다. 벤치마크는 적용될 때만큼은 훌륭합니다. 객관적이고, 반복 가능하며, 비교 가능하죠. 문제는 모델이 지금 하는 가장 흥미로운 일들, 즉 에세이를 쓰고, 개념을 설명하고, 코드를 작성하고, 도움이 되는 대화를 이어가는 일에는 대조해 볼 단 하나의 정답이 없다는 것입니다. 그런 종류의 작업을 평가하려면 판단이 필요하고, 판단은 지저분합니다.

이 글은 이 분야가 어떻게 대처하는지에 관한 것입니다. 벤치마크가 바닥나면 심사자에게 의지하게 됩니다. 때로 그 심사자는 사람입니다. 점점 더, 그 심사자는 다른 모델입니다. 두 접근 모두 유용하고, 두 접근 모두 당신을 조용히 잘못된 길로 이끌 수 있습니다.

벤치마크가 더 이상 충분하지 않게 되는 이유

벤치마크는 정답이 잘 정의되어 있을 때 작동합니다. 모델이 이미지를 올바르게 분류했는가? 방정식을 풀었는가? 그것은 자동으로 점수 매길 수 있고 그 숫자를 믿을 수 있습니다.

열린 과제는 이를 무너뜨립니다. 두 모델이 각각 한 기사의 요약을 쓴다고 합시다. 어느 쪽이 더 나을까요? 이제 "더 낫다"는 정확성, 완전성, 명료성, 어조, 길이, 그리고 중요한 무언가를 빠뜨렸는지 여부에 달려 있습니다. 어떤 정확 일치 점수도 포착하지 못하는 자질의 묶음이죠. 참조 요약과의 겹침 같은 대리 지표를 만들어 낼 수는 있지만, 그것은 진정한 품질이 아니라 표면적 유사성에 보상을 주며, 표현만 다를 뿐 훌륭한 요약은 낮은 점수를 받습니다.

더 미묘한 실패도 있습니다. 벤치마크는 편법으로 공략당하고 포화될 수 있습니다. 일단 벤치마크가 목표가 되면, 시스템은 그 특정 시험에 맞춰 최적화되고, 높은 점수는 더 이상 일반적 능력을 반영하지 않게 됩니다. 모델이 벤치마크에서 만점을 받고도 실제 사용에서는 불쾌하거나 미덥지 못할 수 있습니다. 그래서 이 분야는 사람이 실제로 출력을 판단하는 방식에 더 가까운 평가 방법으로 손을 뻗습니다.

사람 평가: 황금 기준, 단 단서가 붙는

열린 품질을 판단하는 가장 직접적인 방법은 사람에게 묻는 것입니다. 사람에게 모델의 출력을 보여 주고 점수를 매기게 하거나, 두 개의 출력을 보여 주고 어느 쪽을 선호하는지 묻는 것이죠. 선호 비교가 인기 있는 이유는, "이 둘 중 어느 쪽이 더 나은가?"가 "이것을 1부터 10까지로 채점하라"보다 사람에게 훨씬 쉽고 믿을 만한 질문이기 때문입니다.

사람의 판단은 주관적 품질에 대해 우리가 가진 정답에 가장 가까운 것이며, 현대 모델이 도움이 되도록 정렬되는 방식의 상당 부분을 뒷받침합니다. 하지만 깨끗한 신호는 아닙니다.

느리고 비쌉니다. 사람은 자동 지표보다 훨씬 비용이 많이 들어, 평가할 수 있는 양을 제한합니다.
일관성이 없습니다. 사람마다 의견이 다르고, 같은 사람도 날마다 자기 자신과 의견이 갈립니다. 잡음을 평균으로 상쇄하려면 많은 평가가 필요합니다.
예측 가능한 방식으로 편향됩니다. 평가자는 더 긴 답, 더 자신감 있게 들리는 답, 더 깔끔하게 서식이 잡힌 답을 선호할 수 있습니다. 그것이 실제로 더 낫지 않을 때조차요. 미묘하게 틀렸지만 유창한 산문에 휘둘릴 수도 있습니다.

그래서 사람 평가는 황금 기준인 동시에 결함 있는 도구입니다. 핵심은 질문을 잘 설계하고, 충분한 평가를 모으고, 도사리고 있다고 알고 있는 편향을 경계하는 데 있습니다.

심사자로서의 모델

사람 평가가 워낙 비싸다 보니, 자연스러운 아이디어가 자리를 잡았습니다. 유능한 모델에게 심사를 시키는 것이죠. 강력한 모델에게 과제와 후보 답안(혹은 비교할 두 답안)과 채점 기준을 주고, 점수를 매기거나 승자를 고르게 합니다. 이를 보통 LLM-as-judge라고 부릅니다.

매력은 명백합니다. 모델 심사자는 빠르고, 저렴하고, 하루 종일 가용하며, 매번 같은 지시를 따른다는 좁은 의미에서 완벽하게 일관됩니다. 사람 패널이 몇 건을 처리할 시간에 수천 건의 출력을 평가할 수 있어, 그러지 않으면 측정 비용이 너무 커서 엄두도 못 낼 변경을 시험하는 일을 현실적으로 만듭니다. 많은 열린 과제에서, 강력한 모델의 선호는 사람들이 선호하는 것과 꽤 잘 들어맞습니다. 빠른 반복에 정말로 유용할 만큼은요.

이것이 현대 평가의 일꾼이 된 것은 바로 병목을 풀어 주기 때문입니다. 하지만 자체적인 위험 목록도 함께 따라오며, 모델 심사자를 신탁처럼 떠받드는 것은 스스로를 속이는 지름길입니다.

모델 심사자가 당신을 오도하는 방식

모델 심사자에게는 편향이 있고, 자동화되어 있기에 그 편향은 모든 단일 판단에 체계적으로 적용됩니다. 적어도 평균으로 상쇄되는 사람의 잡음보다 더 나쁠 수 있죠.

위치와 순서 효과. 두 답안을 비교할 때, 심사자는 내용과 무관하게 먼저(혹은 나중에) 보인 쪽을 선호할 수 있습니다. 순서를 바꿔 가며 평균 내는 것이 표준적인 예방책입니다.
장황함과 스타일 편향. 모델 심사자는 짧고 옳은 답이 더 나을 때조차, 더 길고 더 정교하고 더 자신감 있게 들리는 답을 선호하는 경우가 많습니다. 다듬어진 형식이 옳은 내용을 이길 수 있습니다.
자기 선호. 심사자는 자신의 스타일을 닮았거나 자신이 만들었을 법한 출력을 선호할 수 있어, 모델 간 비교를 왜곡합니다.
질문 표현 방식에 대한 취약성. 채점 기준을 어떻게 표현하느냐가 판정을 좌우할 수 있으므로, 심사자에게 주는 프롬프트 자체가 제대로 설계해야 할 산물입니다.

가장 깊은 위험은 **순환성(circularity)**입니다. 모델로 모델을 심사하는데 둘이 같은 맹점을 공유한다면, 심사자는 같은 오개념을 공유하기에 자신감 넘치는 헛소리를 기꺼이 훌륭하다고 평가할 것입니다. 평가는 엄정해 보이지만 엉뚱한 것을 측정합니다.

심사자를 신뢰할 만하게 만들기

이 문제들 중 어느 것도 모델 심사자를 포기해야 한다는 뜻은 아닙니다. 그 출력을 판정이 아니라 증거로 취급해야 한다는 뜻이죠. 도움이 되는 관행들입니다.

심사자를 사람에 대조해 검증하세요. 모델 심사자의 판정이 표본에서 신중한 사람의 판단과 일치하는지 주기적으로 확인하세요. 어긋나면 사람을 믿고 다시 보정하세요.
알려진 편향을 통제하세요. 답안 순서를 무작위화하고, 심사자가 그저 길이에 보상을 주는지 살피며, 막연한 전체 인상이 아니라 구체적 기준을 묻는 채점 기준을 설계하세요.
명료하고 구체적인 채점 기준을 쓰세요. 무엇을 봐야 하는지 정확히 들은 심사자가, 열린 "어느 쪽이 더 나은가?"를 받은 심사자보다 더 믿을 만합니다.
중대한 사안에는 사람을 루프에 두세요. 저렴한 모델 판단으로 빠르게 반복하고, 정말 중요한 결정에는 사람 평가를 남겨 두세요.

목표는 계층화된 시스템입니다. 속도와 규모를 위한 자동 판단을, 정답을 위한 주기적 사람 판단으로 고정하는 것이죠.

정리

벤치마크는 점수 매기기 쉬운 것을 측정하지만, 모델이 하는 가장 가치 있는 일들은 점수 매기기 쉽지 않습니다. 그래서 평가는 판단 쪽으로 밀려납니다. 황금 기준이지만 느리고, 일관성이 없고, 조용히 편향된 사람에게서, 그리고 빠르고 저렴하지만 자체적인 체계적 편향을 지니고 자기 맹점에 보상을 주는 순환의 함정에 빠질 위험이 있는 모델 심사자에게서요. 어느 심사자도 신탁이 아닙니다. 믿을 만한 길은 규모를 위해 모델 심사자를 쓰되 사람에 대조해 검증하고, 존재한다고 알고 있는 편향을 통제하며, 중요한 결정에는 사람의 판단으로 닻을 내리는 것입니다. 좋은 평가는 하나의 숫자가 아닙니다. 당신이 가진 그 숫자를 얼마나 믿어야 하는지 아는 것입니다.

#evaluation#llm-as-judge#benchmarks#alignment

1차 출처

arXiv Anthropic documentation