모델의 "파라미터"란 실제로 무엇인가

"수십억 개의 파라미터"가 마력처럼 인용됩니다. 파라미터가 정말 무엇인지, 그 수가 왜 중요한지, 그리고 왜 크다고 자동으로 더 낫지 않은지 살펴봅니다.

models2026-04-21 18:59 KST·편집장·7 분

모델 발표에는 으레 숫자가 따라붙는 듯합니다. 몇십억 개의 파라미터라는 식으로요. 그 수치는 자동차 사양표의 마력처럼 인용되며, 마치 크면 곧 더 낫다는 듯합니다. 하지만 그 숫자를 따라 말하는 사람 대부분은 파라미터가 실제로 무엇인지 설명하지 못하고, 그 간극은 잘못된 직관으로 이어집니다. 파라미터 수를 좇거나, 더 큰 모델이 늘 더 똑똑하리라 가정하거나, 그 숫자가 비용과 능력에 대해 무엇을 말해주는지를 오독하는 식으로요. 이 글은 파라미터가 정말 무엇인지를 쉬운 말로 설명하고, 그 수가 무엇을 예측해 주고 무엇을 예측해 주지 않는지를 짚습니다.

파라미터는 학습된 숫자다

가장 단순하게 말하면, 파라미터는 모델이 학습 중에 조정하는 하나의 숫자입니다. 그게 전부입니다. 모델은 기계적으로 보면, 어떤 구조로 배열된 매우 많은 숫자들의 집합에, 입력을 그 숫자들과 결합해 출력을 만들어내는 규칙이 더해진 것입니다. 파라미터는 바로 그 숫자들입니다. "70억 개의 파라미터"란 대략 70억 개의 개별적으로 조정 가능한 값이 모델 안에 있다는 뜻입니다.

이 숫자들은 엔지니어가 써넣는 것이 아닙니다. 본질적으로 무작위에서 출발해, 학습 과정에 걸쳐 한 번에 아주 조금씩 조정됩니다. 모델의 예측이 틀릴 때마다 많은 파라미터가 살짝 움직여, 다음번에 그런 종류의 실수가 덜 일어나도록 하죠. 어마어마한 양의 데이터에 걸쳐 이런 조정이 충분히 쌓이고 나면, 파라미터는 모델이 학습한 패턴을 부호화하는 값으로 자리를 잡습니다. 모델의 "지식"은 읽을 수 있는 사실로 저장되지 않습니다. 어떤 인간도 직접 쓴 적 없는 방식으로, 이 수십억 개 숫자에 걸쳐 분산되어 있습니다.

가중치, 그리고 도움이 되는 비유

파라미터는 흔히 **가중치(weights)**라고 불리며, 그 이름은 유용한 그림을 넌지시 비춰줍니다. 모델을 방대한 연결망으로 떠올려 보세요. 각 연결에는 강도가 있는데, 내부 정보의 한 조각이 다른 조각에 얼마나 영향을 주는지를 뜻합니다. 그 강도들이 가중치입니다. 높은 가중치는 강한 영향을, 낮거나 음의 가중치는 약하거나 반대되는 영향을 뜻합니다.

텍스트가 모델을 통과할 때, 그것은 이 가중치들과 거듭 결합됩니다. 여기서는 증폭되고 저기서는 약해지면서요. 그렇게 가중된 결합 전부의 누적 효과가 바로 다음 토큰 예측을 만들어냅니다. 학습이란 올바른 강도를 찾는 과정입니다. 모델이 잘 예측하려면 어떤 연결이 크게 중요하고 어떤 연결이 거의 중요하지 않아야 하는지를 찾는 것이죠. 그러니 "모델이 학습했다"는 말을 들을 때, 물리적으로 일어난 일은 어마어마한 수의 이 가중치들이 더 나은 값으로 옮겨간 것입니다.

이것이 모델을 열어 "파리는 프랑스의 수도다"라는 사실이 어딘가에 적혀 있는 것을 찾을 수 없는 이유입니다. 모델이 그 사실을 지니고 있다 해도, 그것은 함께 작동하는 여러 가중치에 걸친 특정 패턴으로 존재합니다. 모델 안의 지식은 분산되어 있지, 정리되어 보관되어 있지 않습니다.

그 수가 실제로 말해주는 것

파라미터 수는 모델의 *수용력(capacity)*에 대한 대략적인 척도입니다. 원리상 모델이 얼마나 많이 학습하고 표현할 수 있는지를 가리키죠. 파라미터가 더 많다는 것은 패턴을 저장할 공간이 더 많고, 복잡한 관계를 모델링할 유연성이 더 크다는 뜻입니다. 다른 조건이 같다면, 더 큰 모델은 더 높은 천장을 갖습니다.

그러나 "다른 조건이 같다면"이 많은 일을 떠맡고 있으며, 수용력은 실현된 능력과 같지 않습니다. 그 수가 직접 말해주지 않는 것 몇 가지가 있습니다.

모델이 실제로 얼마나 좋은가. 수용력은 잠재력입니다. 형편없는 데이터로 학습했거나 충분히 학습하지 못한 더 큰 모델은, 잘 학습된 더 작은 모델에 질 수 있습니다. 그 수는 그릇의 크기를 말해줄 뿐, 안에 든 것의 품질을 말해주지 않습니다.
무엇을 잘하는가. 크기가 비슷한 두 모델도 학습 데이터와 튜닝에 따라 매우 다른 강점을 가질 수 있습니다. 그 숫자는 이에 대해 침묵합니다.
당신에게 맞는 선택인가. 더 빠르고 더 저렴한 작은 모델이 당신의 과제를 완벽히 수행할 수 있습니다. 날것의 수용력 최전선은 대부분의 실무가 자리할 곳이 좀처럼 아닙니다.

그러니 파라미터 수는 진짜 정보이긴 하지만, "이 차가 출근길에 얼마나 빨리 데려다줄까"보다는 "엔진 배기량"에 가깝습니다. 관련은 있되, 전체 이야기와는 거리가 멉니다.

크다고 자동으로 더 낫지 않은 이유

파라미터가 더 많은 모델이 분명 더 똑똑할 것이라는 끈질긴 직관이 있습니다. 실제로 그 관계는 여러 이유로 훨씬 더 느슨합니다.

데이터와 학습이 엄청나게 중요합니다. 모델의 품질은 크기만이 아니라 얼마나 많은 좋은 데이터를 봤는지, 얼마나 잘 학습됐는지에 달려 있습니다. 제대로 채워지지 않은 수용력은 낭비입니다.

기법은 시간이 지나며 개선됩니다. 더 나은 학습 방법과 더 나은 데이터 선별 덕분에, 더 새롭고 더 작은 모델이 더 오래되고 더 큰 모델과 맞먹거나 그것을 능가할 수 있습니다. 1년 전의 크기는 오늘의 크기가 사주는 것을 사주지 못합니다.

클수록 운영 비용이 더 듭니다. 파라미터 하나가 늘 때마다 모델을 쓰는 데 필요한 연산, 메모리, 지연 시간이 늘어납니다. 더 큰 모델은 일반적으로 요청당 더 느리고 더 비쌉니다. 많은 응용에서 그 비용은 한계적인 능력 향상에 견줄 만하지 않으며, 때로는 해당 과제에 대해 아무런 향상이 없기도 합니다.

요점은 이렇습니다. 파라미터 수는 판단의 한 입력일 뿐, 판단 그 자체가 아닙니다. 두 모델을 순전히 크기로만 비교하는 것은 잘못 고르기 좋은 방법입니다.

활성 파라미터 대 전체 파라미터

모델 사양을 읽는 사람들을 헷갈리게 하니 알아둘 만한 단서 하나. 일부 현대 아키텍처는 모든 입력에 대해 자신의 파라미터를 전부 쓰지는 않습니다. 이런 설계에서 모델은 매우 큰 전체 파라미터 수를 가지면서도, 주어진 토큰을 처리하는 데는 그중 일부만 활성화할 수 있습니다.

이것이 중요한 이유는 크기와 비용 사이의 단순한 연결을 깨뜨리기 때문입니다. 어떤 모델은 거대한 전체 파라미터 수를 내세우면서도 훨씬 더 작은 모델에 가까운 비용으로 동작할 수 있습니다. 특정 요청에서 대부분의 파라미터가 놀고 있기 때문이죠. 그러니 모델을 비교할 때는, 인용된 수가 전체 파라미터 수인지 입력당 실제로 쓰이는 수인지 아는 것이 좋습니다. 둘은 능력과 비용 양쪽에 대해 아주 다른 이야기를 들려줄 수 있으니까요.

세상에서 파라미터 수를 읽는 법

다음번에 파라미터 수치를 보게 되면, 정직함을 유지해 줄 습관 몇 가지가 있습니다. 그것을 품질 점수가 아니라 대략적인 수용력 지표로 다루세요. 특히 서로 다른 시대의 모델을 비교할 때는, 학습 데이터와 방법이 날것의 크기보다 더 중요할 수 있음을 기억하세요. 일반적으로 클수록 운영이 더 느리고 더 비싸다고 가정하고, 그것을 당신의 실제 필요와 견주세요. 그리고 비용에 대한 결론을 내리기 전에, 그 수가 전체 파라미터를 가리키는지 활성 파라미터를 가리키는지 확인하세요. 이런 단서들을 곁들이면, 그 수는 유용한 맥락이 됩니다. 그것들이 없으면, 잘못된 결론을 부르는 한낱 숫자일 뿐입니다.

정리

파라미터는 학습된 숫자입니다. 모델이 데이터의 패턴을 담아내기 위해 학습 중에 조정하는, 보통 가중치라 불리는 수십억 개의 조정 가능한 값 중 하나죠. 그 전체 수는 수용력의 대략적인 척도입니다. 원리상 모델이 얼마나 많이 표현할 수 있는지를요. 그것은 진짜 정보이지만, 능력 점수도, 품질 보증도, 어떤 모델을 써야 할지에 대한 판결도 아닙니다. 학습 데이터, 방법, 모델의 연식, 그리고 입력당 실제로 활성화되는 파라미터가 몇 개인지가, 적어도 그 머리기사 숫자만큼은 결과를 좌우합니다. 그 수를 사양표의 엔진 크기를 읽듯 읽으세요. 잠재력에 대한 단서일 뿐, 결코 전체 이야기가 아닙니다.

#parameters#model-size#weights#scaling

1차 출처

Hugging Face — Documentation Anthropic — Documentation