양자화와 증류: 모델을 더 작게 만들기

"모델을 줄이는 두 가지 방법 — 하나는 숫자를 바꾸고, 다른 하나는 더 작은 사본을 학습시킵니다. 각각의 원리와 언제 꺼내 쓸지 살펴봅니다."

models2026-04-12 16:37 KST·편집장·7 분

큰 모델은 운영 비용이 많이 듭니다. 메모리도 연산도 많이 필요하고, 작은 모델보다 응답도 느립니다. 그래서 실무적인 AI 작업의 상당 부분은 모델을 눈에 띄게 나빠지지 않으면서 더 작게 만드는 일입니다. 이 노력을 주도하는 두 기법이 있는데, 둘은 완전히 다른 원리로 작동하면서도 곧잘 한 묶음으로 언급됩니다. 양자화는 모델의 숫자를 더 촘촘하게 저장해 크기를 줄입니다. 증류는 더 작은 모델이 더 큰 모델을 흉내 내도록 학습시켜 크기를 줄입니다. 이 차이를 이해하는 것이 어느 지렛대를 당길지 아는 열쇠입니다.

이 글은 두 가지를 쉬운 말로 설명하고, 각각이 감수하는 절충점을 짚으며, 애초에 언제 "더 작게"가 옳은 목표인지 생각하는 실용적 방법을 제시합니다.

크기가 풀어 볼 만한 문제인 이유

모델은 근본적으로 파라미터라 불리는 엄청난 숫자 더미입니다. 학습 과정에서 익힌 값들이죠. 더 큰 모델은 파라미터가 더 많고, 파라미터가 많다는 것은 그것을 담을 메모리도, 굴릴 연산도 더 많다는 뜻입니다. 이는 곧바로 비용, 지연 시간, 그리고 모델이 물리적으로 어디에 살 수 있는지로 이어집니다. 휴대폰이나 그리 크지 않은 서버에서 돌아갈 만큼 작은 모델은, 데이터센터 속 거대한 모델이 값싸거나 빠르게 감당할 수 없는 용도를 열어 줍니다.

그러니 압축의 목표는 작음 그 자체가 아닙니다. 가능한 한 많은 능력을 유지하면서 메모리, 돈, 시간이라는 더 빠듯한 예산 안에 모델을 끼워 넣는 것입니다. 흥미로운 질문은 늘 똑같습니다. 내 작업에 의미 있는 방식으로 품질이 떨어지기 전까지 얼마나 줄일 수 있는가?

양자화: 같은 모델을 더 촘촘하게 저장하기

모델의 모든 파라미터는 숫자이고, 숫자는 서로 다른 정밀도 수준으로 저장될 수 있습니다. 고정밀 숫자는 미세한 차이를 담기 위해 많은 비트를 할애하고, 저정밀 숫자는 더 적은 비트를 써서 값을 더 거칠게 담습니다. 양자화란 모델의 파라미터를 고정밀에서 저정밀로 변환하는 일 — 각 숫자를 더 적은 공간에 욱여넣는 일입니다.

직관적으로는 사진을 더 낮은 품질 설정으로 저장하는 것과 비슷합니다. 이미지는 여전히 알아볼 수 있고, 파일은 훨씬 작아지며, 대부분의 용도에서는 차이를 알아챌 수 없습니다. 양자화된 모델은 같은 구조와 같은 학습된 지식을 유지하며, 다만 각 값을 더 거칠게 나타낼 뿐입니다. 숫자가 차지하는 자리가 줄어들기 때문에 모델은 메모리를 덜 쓰고, 더 작은 숫자를 옮기고 곱하는 편이 값싸므로 흔히 더 빠르게 돌아갑니다.

함정은 더 거친 숫자는 디테일을 잃는다는 점입니다. 정밀도를 충분히 낮게 밀어붙이면 반올림 오차가 쌓이다가 모델의 행동이 무너집니다. 특히 어려운 작업에서 답이 부정확해지죠. 적정 지점이 있고, 그것을 찾는 것이 게임의 전부입니다. 가벼운 양자화는 흔히 품질 면에서 거의 공짜에 가깝고, 공격적인 양자화는 슬슬 발목을 잡기 시작합니다.

증류: 더 작은 모델이 더 큰 모델을 흉내 내도록 학습시키기

증류는 다른 길을 택합니다. 기존 모델의 숫자를 압축하는 대신, 새로운, 더 작은 모델을 처음부터 만들어 큰 모델을 흉내 내도록 학습시킵니다. 큰 모델이 "선생", 작은 모델이 "학생"이며, 학생은 선생의 출력을 지켜보고 그것을 재현하려 애쓰며 배웁니다.

이것이 작은 모델을 그냥 원자료로 학습시키는 것보다 잘 먹히는 이유는 미묘합니다. 선생 모델이 입력에 반응할 때, 그 출력은 단순한 정오답 라벨보다 더 많은 정보를 담습니다. 선생이 여러 가능성에 어떻게 가중치를 두는지를 반영하며, 이는 문제의 구조에 대한 무언가를 포착합니다. 학생은 그 더 풍부한 신호로부터 배웁니다. 그 결과, 흉내 내도록 학습된 종류의 입력에서는 선생에 놀랍도록 가깝게 작동하는 훨씬 작은 모델이 나올 수 있습니다. 선생의 학습된 판단을 홀로 다시 발견하는 대신 물려받았기 때문이죠.

여기서의 함정은 양자화의 것과 다릅니다. 증류된 모델은 진짜로 다르고 더 작은 모델이므로 그 천장이 더 낮습니다. 선생이 보여 준 영역에서는 잘하는 경향이 있지만, 그 영역에서 멀리 떨어진 입력에서는 무너질 수 있습니다. 또 증류는 앞단에 실질적인 노력이 듭니다 — 학습 과정을 돌려야 하죠 — 반면 양자화는 완성된 모델에 비교적 빠르게 적용할 수 있습니다.

핵심 차이, 쉽게 말하면

양자화는 같은 모델을 유지한 채 그 숫자를 저장하는 방식을 바꿉니다. 증류는 큰 모델을 버리고 그처럼 행동할 새로운 더 작은 모델을 학습시킵니다. 하나는 표현의 변화이고, 다른 하나는 모델의 변화입니다. 이 구분이 둘 사이의 모든 절충점을 설명합니다. 양자화는 적용이 빠르고 원본의 전체 구조를 보존하지만 품질이 나빠지기 전까지 얼마나 줄일 수 있는지에 한계가 있고, 증류는 극적으로 더 작고 빠른 모델을 만들 수 있지만 학습 노력이 필요하며 천장이 진짜로 더 낮은 모델을 내놓습니다.

둘 중 고르기 — 그리고 함께 쓰기

실용적 질문은 내 제약이 실제로 무엇이냐입니다. 마음에 드는 모델이 있고 그저 메모리를 덜 차지하거나 조금 더 빠르게만 돌리면 된다면, 양자화가 노력이 덜 드는 첫수입니다. 적당한 수준으로 적용하고, 내 작업에서 품질을 재 보고, 나빠지기 전에 멈추세요. 양자화만으로 줄 수 있는 것보다 훨씬 더 작고 빠른 것이 필요하다면 — 제약 많은 기기에 들어갈 만큼 작거나, 아주 큰 규모로 돌릴 만큼 값싸게 — 증류가 거기까지 데려다주는 더 무거운 도구입니다.

결정적으로, 둘은 경쟁자가 아닙니다. 서로 다른 원리로 작동하므로 쌓아 올릴 수 있습니다. 흔한 운영 경로는 큰 모델을 더 작은 학생으로 증류한 뒤 그 학생을 양자화해, 두 종류의 절감을 모두 챙기는 것입니다. 증류로 나온 더 작은 모델이 파라미터 수를 줄이고, 양자화가 남은 각 파라미터의 저장 비용을 줄입니다. 매 단계마다 품질을 계속 재기만 한다면, 둘을 함께 쓰면 어느 하나만으로 가능한 것보다 훨씬 더 압축할 수 있습니다.

너무 멀리 갔는지 아는 법

두 기법 모두 언제 내 애플리케이션을 해쳤는지 알려 주지 않습니다. 오직 내 자신의 평가만이 알려 줍니다. 두 경우 모두 규율은 같습니다. 내 실제 작업을 대표하는 작은 입력 묶음을, 좋은 출력이 어떤 모습인지에 대한 명확한 기준과 함께 마련하고, 바로 그 입력들에서 압축된 모델을 원본과 비교하세요. 특히 더 어려운 예시와 경계 사례를 주목하세요. 압축은 쉬운 작업은 멀쩡해 보이게 두면서 어려운 작업부터 무너뜨리는 경향이 있기 때문입니다. 쉬운 입력은 여전히 척척 풀면서 어려운 것은 조용히 실패하는 모델이야말로, 적정 지점을 지나 너무 줄였다는 전형적 신호입니다.

정리

양자화와 증류는 둘 다 모델을 더 작게 만들지만, 같은 수가 아닙니다. 양자화는 같은 모델의 숫자를 더 촘촘하게 저장합니다 — 적용이 빠르고 구조가 보존되며 줄일 수 있는 폭에 한계가 있습니다. 증류는 새로운, 더 작은 모델이 더 큰 모델을 흉내 내도록 학습시킵니다 — 노력이 더 들고 훨씬 더 많이 줄지만 천장이 더 낮습니다. 제약에 맞춰 고르고, 필요할 때 함께 쓰며, 내 작업으로 만든 평가가 언제 "작음"이 "너무 작음"이 되었는지 알려 주게 하세요. 작음은 내가 실제로 시키려는 일을 여전히 충분히 잘해 낼 때만 더 나은 것입니다.

#quantization#distillation#model-compression#efficiency

1차 출처

Hugging Face Documentation arXiv