작은 모델, 큰 일: 온디바이스가 클라우드를 이기는 순간
가장 큰 모델이 옳은 모델인 경우는 드뭅니다. 작은 온디바이스 모델이 통째로 한 부류의 일을 이기는 이유, 그리고 당신의 일이 그런 부류인지 가려내는 법을 살펴봅니다.
AI에는 마치 성능이 유일하게 중요한 축인 것처럼, 가용한 가장 큰 모델로 손을 뻗는 반사 행동이 있습니다. 놀랄 만큼 많은 실제 업무에서 이 반사는 틀립니다. 작은 모델 — 뒤에 GPU 팜 없이 휴대폰, 노트북, 또는 수수한 서버에서 돌아갈 수 있는 종류 — 은 일상 업무의 큰 부분을 조용히 처리하며, 종종 클라우드의 거대 모델보다 더 빠르고, 더 저렴하고, 더 사적입니다. 기술은 작은 모델이 존재한다는 것을 아는 데 있지 않습니다. 언제 작은 모델이 단지 더 저렴한 도구가 아니라 더 나은 도구인지를 아는 데 있습니다.
이 글은 "작다"는 것이 실제로 무엇을 사주는지, 온디바이스 실행이 트레이드오프를 어떻게 통째로 바꾸는지, 작은 모델이 정말로 부족한 지점은 어디인지, 그리고 어떤 일을 어디로 보낼지 결정하는 법을 설명합니다.
"작다"는 것이 실제로 의미하는 것
공식적인 기준선은 없으며, 효율이 개선되면서 경계는 계속 움직입니다. 지속되는 정의는 수치가 아니라 기능적입니다. 작은 모델이란 큰 모델이 돌아갈 수 없는 곳 — 전용 가속기 없는 노트북, 휴대폰, 엣지 디바이스, 또는 저렴한 범용 하드웨어 — 에서 돌아갈 만큼 가벼운 모델입니다. 스펙트럼의 반대편 끝은 애초에 제대로 서비스하려면 상당한 인프라가 필요한 프런티어 모델입니다.
중요한 것은 파라미터 수가 아니라 그 결과입니다. 로컬에서 돌아갈 만큼 작은 모델은 방정식에서 네트워크, 호출당 청구서, 데이터 왕복을 제거합니다. 그 제거들이지, 크기 자체가 아니라, 바로 그것이 이점의 출처입니다.
온디바이스가 실제로 사주는 세 가지
모델이 사용자 자신의 기기나 당신 자신의 수수한 하드웨어에서 돌아갈 때, 클라우드가 따라올 수 없는 방식으로 세 가지 성질이 바뀝니다.
- 설계에 의한 프라이버시. 입력이 결코 기기를 떠나지 않습니다. 제3자에게 전송되는 데이터도, 보호할 전송 구간도, 감사할 보존 정책도 없습니다. 민감한 자료 — 개인 메시지, 건강 기록, 기밀 문서 — 에 대해서는, "그것이 기기를 떠난 적이 없다"가 어떤 클라우드 프라이버시 약속보다 강력한 보증입니다.
- 왕복 없는 지연 시간. 로컬 모델은 네트워크를 건너지 않고 응답합니다. 자동완성, 실시간 전사, 즉각적인 제안 같은 인터랙티브 기능에서는, 네트워크 홉의 부재가 즉각적으로 느껴지는 기능과 지연되게 느껴지는 기능의 차이가 될 수 있습니다. 게다가 연결이 전혀 없어도 작동합니다.
- 사용량에 비례하지 않는 비용. 로컬 모델에는 호출당 가격이 없습니다. 일단 돌아가기 시작하면, 천 건의 요청이 열 건과 본질적으로 같은 비용입니다. 사용량 많고 반복적인 작업에서는, 이것이 변동하는 클라우드 청구서를 고정되고 예측 가능한 것으로 무너뜨립니다.
이 셋 — 프라이버시, 지연 시간, 평평한 비용 — 이 작고 로컬한 쪽으로 가는 진짜 명분입니다. 그중 어느 것도 원시 품질에 관한 것이 아니라는 점에 주목하십시오. 그것들은 일이 어디서 일어나는가에 관한 것입니다.
작은 모델이 정말로 잘하는 일
작은 모델은 약한 모델이 아닙니다. 더 좁을 뿐입니다. 잘 범위가 잡힌 큰 부류의 과제에 대해, 작은 모델은 전혀 격하가 아닙니다.
- 분류와 라우팅. 메시지가 어느 카테고리에 속하는지, 텍스트가 스팸인지, 티켓이 어느 팀으로 가야 하는지를 결정하는 일. 정답의 공간이 작고, 집중된 모델에 보상이 따릅니다.
- 추출과 태깅. 텍스트에서 구조화된 필드를 뽑아내고, 개체를 레이블링하고, 감성을 표시하는 일. 명확한 목표를 지닌 경계가 분명한 과제입니다.
- 짧은 형식의 변환. 문법 다듬기, 형식 재구성, 간단한 재작성, 자동완성. 작업의 범위가 국소적이고 폭넓은 세계 지식을 요구하지 않습니다.
- 빠른 초안. 사람이나 더 큰 모델이 나중에 다듬을 빠른 답을 작성하는 일.
공통된 맥락은 이런 일들이 좁고 잘 정의되어 있다는 것입니다. 모델은 방대한 가능성의 공간을 넘나들며 추론하거나 많은 양의 세계 지식을 머릿속에 담을 필요가 없습니다. 경계가 분명한 한 가지를 잘하면 됩니다. 그리고 그것을 위해 훈련되거나 튜닝된 작은 모델은, 비용의 일부만으로 종종 거대 모델과 맞먹습니다.
작은 모델이 부족한 지점
한계에 대한 정직함이 이 명분을 신뢰할 수 있게 만듭니다. 작은 모델은 다음에서 정말로 고전합니다.
- 깊은 다단계 추론. 많은 추론 단계를 연결하거나, 긴 논리 사슬을 함께 붙들거나, 잘못된 중간 단계에서 회복해야 하는 문제. 여기서의 성능은 규모를 따라가는 경향이 있습니다.
- 폭넓은 세계 지식. 작은 모델은 흡수한 것이 적으므로, 잘 알려지지 않은 사실에 의존하는 질문은 더 위험합니다. (바로 여기가 작은 모델을 검색과 짝지으면 도움이 되는 지점입니다 — 외우고 있기를 기대하는 대신 사실을 직접 주는 것입니다.)
- 길고 복잡한 컨텍스트. 길고 정교한 문서를 가로질러 종합하는 일은 더 작은 모델에게 더 어렵습니다.
- 개방적이고 다양성이 큰 과제. 입력이 넓고 예측하기 어려울수록, 더 큰 모델의 범용성이 더 빛을 발합니다.
패턴은 그 강점의 거울상입니다. 작은 모델은 좁은 것에 뛰어나고 넓고 깊은 것에 고전합니다. 이 축을 염두에 두면 대부분의 배치 결정이 분명해집니다.
작은 모델이 좋아지는 두 가지 길: 증류와 튜닝
작은 모델이 주어진 과제에서 자기 크기 이상을 해낼 수 있는 이유를 알아두면 도움이 됩니다. 그것이 언제 그렇게 기대할 수 있는지를 알려주기 때문입니다.
한 경로는 **증류(distillation)**입니다. 작은 모델이 훨씬 큰 모델의 동작을 모방하도록 훈련해, 큰 모델의 능력 한 조각을 압축된 형태로 옮기는 것입니다. 작은 모델은 그 동작을 스스로 발견할 필요가 없습니다. 그것을 베끼는 법을 배웁니다.
다른 하나는 **과제별 튜닝(task-specific tuning)**입니다. 작은 범용 모델을 가져와, 그 일의 예시를 사용해 하나의 일에 맞게 적응시키는 것입니다. 당신의 정확한 과제에 집중된 작은 모델은, 그 과제를 한 번도 겨냥한 적 없는 훨씬 큰 범용 모델을 능가할 수 있습니다. 범용성은 공짜가 아니기 때문입니다 — 모든 것에 펼쳐진 모델이 어느 한 좁은 일에서 최고인 경우는 드뭅니다.
두 경로는 같은 교훈을 공유합니다. 특정 목표를 겨냥한 작은 모델은 특별히 아무것도 겨냥하지 않은 큰 모델을 자주 이깁니다. 전문화는 지렛대입니다.
결정하는 실용적인 방법
모든 일에 하나의 모델을 고를 필요는 없습니다. 가장 강력한 아키텍처는 난이도에 따라 일을 라우팅합니다. 실행 가능한 결정 순서는 이렇습니다.
- 과제가 좁고 잘 정의되어 있는가? 분류, 추출, 짧은 변환 — 작은 로컬 모델이 할 수 있다고 가정하는 데서 시작해, 아니라는 것을 증명해 보십시오.
- 프라이버시나 오프라인 작동이 중요한가? 데이터가 기기를 떠나면 안 되거나 기능이 연결 없이 작동해야 한다면, 다른 요인과 무관하게 온디바이스 쪽으로 강하게 밀립니다.
- 인터랙티브하고 지연에 민감한가? 네트워크 왕복이 경험을 해친다면, 로컬 실행이 강력한 기본값입니다.
- 깊은 추론이나 폭넓은 지식이 필요한가? 그렇다면, 그것은 더 크고 아마 클라우드에 호스팅된 모델로 에스컬레이션하라는 신호입니다 — 어쩌면 어려운 일부 사례에 대해서만 말입니다.
- 가정하지 말고 측정하라. 실제 입력으로 작은 평가를 만들어 작은 모델을 돌려보십시오. 작은 모델이 얼마나 멀리 가는지, 그리고 정확히 어디서 멈추는지에 자주 놀라게 될 것입니다.
여기서 도출되는 가장 강력한 패턴은 **캐스케이드(cascade)**입니다. 작은 로컬 모델이 쉬운 다수의 요청을 즉각적이고 사적으로 처리하고, 정말로 어려운 소수만 더 큰 모델로 에스컬레이션하는 것입니다. 대부분의 트래픽에서는 작은 모델의 속도·비용·프라이버시를 얻고, 큰 모델의 능력은 실제로 필요한 곳에서만 쓰고 비용을 지불합니다.
정리
작은 모델은 예산상의 타협이 아닙니다. 좁고 잘 정의된 일에 대해서는 종종 옳은 도구입니다. 온디바이스 실행은 클라우드가 따라올 수 없는 세 가지를 사줍니다. 설계에 의한 프라이버시, 왕복 없는 지연 시간, 그리고 사용량에 비례하지 않는 비용입니다. 한계는 실재합니다 — 깊은 추론, 폭넓은 지식, 길고 복잡한 컨텍스트는 여전히 큰 모델에 유리합니다 — 그러나 그것들은 일상 업무의 소수입니다. 모델을 일에 맞추십시오. 좁고 경계 분명한 일은 작고 로컬하게, 넓고 깊은 일은 크게, 그리고 캐스케이드는 둘 다 가질 수 있게 해줍니다. 난이도로 라우팅하는 팀은 프런티어 모델의 이점 대부분을 비용의 일부로 얻으면서, 사용자의 데이터를 사용자의 기기에 둡니다.
출처 참고: 어떤 모델이 로컬에서 돌릴 만큼 "충분히 작은지"는 효율이 개선되면서 끊임없이 바뀌므로, 이 해설은 현재의 모델을 거명하기보다 지속되는 트레이드오프를 설명합니다. 오늘 특정 기기에서 무엇이 돌아가는지는 공식 모델 문서와 1차 연구를 직접 참조하십시오.
