비용 관리 101: AI 기능을 감당 가능하게 유지하기

AI 기능은 토큰 단위로 청구되고, 작은 습관이 쌓여 큰 청구서가 됩니다. 품질을 해치지 않고 비용을 다스리는 지속적인 레버를 소개합니다.

tutorials2026-04-25 14:40 KST·편집장·7 분

AI 기능에는 소프트웨어치고 특이한 성질이 있습니다. 누군가 쓸 때마다 매번 돈이 든다는 점이죠. 전통적인 코드는 이미 비용을 치른 서버에서 돌기에 추가 호출은 거의 공짜입니다. 언어 모델은 요청당 청구하고, 그 청구서는 사용량에 비례해 커집니다. 그것이 만드는 방식을 바꿉니다. 하루에 몇 푼 드는 프로토타입이 조용히 그것을 만드는 팀보다 더 많은 비용이 드는 기능이 될 수 있으며, 그 차이는 큰 실수 하나에서 오는 경우가 드뭅니다. 작은 습관 백 개가 복리로 쌓인 것이죠. 이 글은 AI 기능을 감당 가능하게 유지하는 지속적인 레버, 즉 어떤 모델이나 벤더를 쓰든 계속 통하는 것들을 다룹니다.

실제로 어떻게 청구되는가

이해하지 못하는 비용은 다스릴 수 없으니, 단위에서 시작합시다. 언어 모델은 토큰 단위로 청구합니다. 토큰은 텍스트 조각으로, 아주 대략 몇 글자 혹은 단어의 일부입니다. 모든 요청은 들어가는 토큰(당신의 프롬프트, 즉 지시사항, 컨텍스트, 예시, 사용자의 입력)과 나오는 토큰(모델의 응답)에 대해 청구됩니다. 양방향 모두 비용이 들며, 많은 모델에서 출력 토큰이 입력 토큰보다 토큰당 더 비쌉니다.

여기서 두 가지 결과가 곧바로 떨어집니다. 첫째, 긴 프롬프트는 모델이 한 단어를 말하기도 전에 이미 공짜가 아닙니다. 그 모든 컨텍스트가 매 호출마다 비용을 치르는 입력이니까요. 둘째, 장황한 답이 같은 것을 말하는 간결한 답보다 더 비쌉니다. 당신의 총 청구서는 본질적으로 요청당 토큰에 요청 수를 곱한 것이며, 아래의 거의 모든 레버는 품질을 줄이지 않으면서 그 두 요인 중 하나를 줄이는 방법입니다.

레버 1: 모델 크기를 알맞게 맞춰라

가장 큰 비용 결정 하나는 어떤 모델을 쓰느냐입니다. 능력과 가격이 함께 움직이기 때문이죠. 가장 강력한 모델은 더 작고 빠른 모델보다 토큰당 의미 있게 비쌉니다. 본능은 모든 것에 가장 유능한 모델을 집어 드는 것입니다. 규율은 각 과제가 실제로 무엇을 필요로 하는지 묻는 것입니다.

많은 과제는 쉽습니다. 메시지 분류, 필드 추출, 짧은 재작성, 일상적인 답신 같은 것이죠. 더 작고 저렴한 모델이 이런 것들을 종종 완벽하게 처리하며, 여기에 플래그십 모델을 쓰는 건 쓰지도 않는 능력에 돈을 내는 일입니다. 비싼 모델은 진짜로 어려운 작업, 즉 깊은 추론, 미묘한 생성, 품질 차이가 가격값을 하는 곳에 아껴 두세요. 강력한 패턴은 난이도로 라우팅하는 것입니다. 저렴한 모델이 쉬운 다수를 처리하고, 어려운 경우만 비싼 모델로 격상시키는 것이죠. 품질 테스트의 eval 규율이 여기에 직접 적용됩니다. 저렴한 모델이 충분치 않다고 단정하기 전에 충분한지를 측정하세요.

레버 2: 호출당 토큰을 덜 써라

모델 크기를 알맞게 맞췄으면, 토큰을 공략하세요. 입력 측에서는 프롬프트를 과제가 필요로 하는 만큼으로 다듬으세요. 부풀려진 지시사항, 중복된 예시, 모델이 쓰지도 않는 컨텍스트는 모두 매 호출마다 돈이 들며, 규모가 커지면 그 낭비가 문제의 전부입니다. 검색과 에이전트 시스템에서는 이게 두 배로 사실인데, "혹시 모르니" 컨텍스트를 쑤셔 넣고 싶은 유혹이 생기기 때문입니다. 쓰이지 않는 모든 구절은 영원히 비용을 치릅니다.

출력 측에서는 필요한 것만, 그 이상은 요구하지 마세요. 글머리 기호 세 개를 원하면 세 개라고 말하세요. 제약 없이 둔 모델은 종종 세 문단을 씁니다. 과제가 허락하는 곳에서는 압축된 형식을 요청하세요. 이 모든 것은 그 자체로 인색하게 굴자는 게 아닙니다. 아무것도 더하지 않는 토큰에 돈을 내지 말자는 것이죠. 과제가 요구하는 것만 담은 프롬프트와 응답은 더 저렴하고 대개 더 명료합니다.

레버 3: 같은 작업을 두 번 지불하지 마라

상당한 AI 비용은 동일하거나 거의 동일한 작업에 반복 지불하는 것이며, 이를 멈추는 깔끔한 방법이 둘 있습니다.

캐싱은 이미 가진 결과를 재사용하는 것입니다. 많은 요청이 크고 변하지 않는 컨텍스트 덩어리, 즉 같은 긴 시스템 프롬프트, 같은 참조 문서를 공유한다면, 프롬프트 캐싱은 그 고정된 부분을 매번 다시 처리하는 것을 피하게 해주어 반복적인 호출의 입력 비용을 크게 줄일 수 있습니다. 별개로, 사용자가 정확히 같은 질문을 자주 한다면 답을 캐싱해서 모델을 아예 호출하지 않고 바로 제공할 수 있습니다. 가장 저렴한 모델 호출은 결코 하지 않는 호출입니다.

중복 제거와 배칭은 양을 다룹니다. 시스템이 같은 요청을 두 번 보내려 한다면, 한 번만 보내세요. 급하지 않은 요청이 많다면, 즉 야간 처리, 대량 분석이라면, 함께 처리하는 것이 한 번에 하나씩 다급하게 호출하는 것보다 종종 더 저렴하며, 일부 플랫폼은 급하지 않은 배치 작업을 실시간 요금보다 낮게 책정합니다. 공통의 실은 이렇습니다. 동일한 작업은 한 번만 해야 하고, 인내할 수 있는 작업은 조급함의 프리미엄을 내서는 안 됩니다.

레버 4: 폭주를 막아라

대부분의 비용 재앙은 꾸준한 물방울이 아닙니다. 폭주하는 단일 구성요소죠. 루프에 갇혀 모델을 반복해서 호출하는 에이전트. 한도 없이 매 실패마다 발동하는 재시도. 시간당 수천 건의 요청을 보내는 사용자, 혹은 사용자인 척하는 스크립트. 꾸준한 사용량은 예산 잡기 쉽습니다. 누군가의 속을 철렁하게 하는 청구서를 만드는 건 폭주입니다.

그러니 루프나 큐가 형성될 수 있는 모든 곳에 천장을 두세요. 에이전트가 멈추고 보고하기 전에 밟을 수 있는 단계 수를 제한하세요. 재시도를 제한하세요. 한 사용자가 한 시간 창 안에서 할 수 있는 요청 수를 제한하세요. 응답 길이에 단단한 최대치를 두어 하나의 병적인 요청이 거대하고 비싼 답을 생성하지 못하게 하세요. 이 천장들 중 어느 것도 정상 사용 중에는 물지 말아야 합니다. 그것들은 바로 비정상적인 경우를 위해 존재하며, 한 번 당신을 구하는 것만으로 여러 배의 값을 합니다.

레버 5: 최적화 전에 측정하라

보지 못하는 것은 관리할 수 없으며, 대부분의 비용 놀람은 사실 가시성 실패입니다. 지출은 내내 거기 있었는데 아무도 보고 있지 않았던 것이죠. 무언가를 최적화하기 전에 기능을 계측해서 돈이 어디로 가는지 알아두세요. 어떤 작업이 가장 비싼지, 비용이 입력과 출력 사이에서 어떻게 나뉘는지, 어떤 사용자나 요청 유형이 지배적인지.

이게 중요한 이유는 비용이, 성능과 마찬가지로, 쏠림(skew)을 따르기 때문입니다. 보통 작은 비율의 작업이 청구서의 큰 비율을 몰아갑니다. 저렴하고 드문 경로를 최적화하는 건 생산적으로 느껴지지만 아무것도 아끼지 못합니다. 비싸고 빈번한 경로를 먼저 찾아 그것을 고치세요. 그런 다음 시간에 따른 추세를 지켜보세요. 사용량은 자라며, 출시 때 감당 가능했던 기능이 채택이 늘면서 비싸게 표류할 수 있기 때문입니다. 지출이 당신이 의도적으로 고른 임계값을 넘을 때 알림을 설정해서, 비용 문제를 재무 부서 이메일이 아니라 당신 자신의 대시보드에서 배우도록 하세요.

비용과 품질의 균형 잡기

여기 모든 레버는 무언가와 맞바꿉니다. 그렇지 않은 척하면 아무도 쓰고 싶어 하지 않는 저렴한 기능으로 이어집니다. 더 작은 모델은 돈을 아끼지만 약간 더 나쁘게 답할 수 있습니다. 더 짧은 프롬프트는 토큰을 아끼지만 중요했던 컨텍스트 한 조각을 떨어뜨릴 수 있습니다. 공격적인 캐싱은 호출을 아끼지만 오래된 답을 제공할 위험이 있습니다. 목표는 가능한 가장 낮은 비용이 아닙니다. 그건 사용자 없는 기능입니다. 목표는 여전히 당신의 품질 기준을 충족하는 가장 낮은 비용입니다. 바로 여기가 eval이 제값을 하는 지점입니다. 비용 절감 변경을 가하고, 희망이 아니라 숫자로 품질이 유지되었는지 확인하게 해주죠. 비용을 줄이고, 품질을 측정하고, 품질이 견뎌낸 절감을 유지하세요.

정리

AI 기능을 감당 가능하게 유지하는 것은 소수의 지속적인 습관으로 귀결됩니다. 토큰을 이해하는 청구 인식 설계, 각 과제에 모델 크기를 알맞게 맞추기, 호출당 토큰을 덜 쓰기, 같은 작업에 두 번 지불하지 않기, 폭주할 수 있는 구성요소에 천장 두기, 그리고 실제로 돈이 드는 경로를 최적화하도록 모든 것을 측정하기. 어느 것도 영리한 잔재주를 요구하지 않으며, 모두가 모델과 벤더의 변화를 견뎌냅니다. 이 시스템들이 가격 책정되는 방식에서 따라 나오기 때문이죠. 각 절감을 eval과 짝지어 품질을 솔직하게 유지하면, 스스로를 파산시킬 수도 있었던 기능이 계속 돌릴 만한 기능으로 남습니다.

#cost#tokens#caching#tutorial

1차 출처

Anthropic — pricing and token usage OpenAI — production best practices