AI 에이전트 비용 비교 후기: 큰 모델 vs 작은 모델 가성비 운영기

토큰 먹는 하마

지능의 가격이 0원에 수렴한다는 말이 있습니다. 공감합니다. 하지만 이게 저렴하다는 뜻은 아니라고 생각합니다. 현재 AI 서비스는 월 3만 원에서 많게는 30만 원 정도의 구독 모델로 제공됩니다. 지금의 AI 성능을 생각하면 어느 정도 납득 가능한 가격일 수는 있지만, 한국의 가구 기준 중위소득¹에 비추어 보면 결코 저렴한 비용은 아닙니다.

저는 지금 3-4개 정도의 Plus 또는 Pro 서비스를 사용하고 있습니다. 서비스 품질이 일정하지 않고 3사가 경쟁하듯 성능이 좋아졌다 나빠졌다 한 탓도 있고, 30만 원을 내기엔 부담되는 금액이기 때문이기도 합니다. 그래서 OpenClaw²류의 에이전트를 사용해 보기가 다소 망설여졌는데, 실제로 Codex³를 붙여서 돌려보니 우려했던 대로 하루 이틀 만에 주간 limit의 절반을 사용해 버리기도 했습니다. 다행히 최근 OpenAI가 limit 초기화를 거의 매일 해주는 덕분에 현재까지는 불편함 없이 쓰고 있습니다만(샘 알트만 만세!), 출혈 경쟁 속 이벤트 같은 것이라고 생각하면 여전히 빠듯한 느낌이 있습니다.

(1) 기준 중위소득 — 전 국민을 소득순으로 줄 세웠을 때 정중앙에 위치한 사람의 소득입니다. 2026년 가구 기준(1인)은 월 2,564,238원이며, 각종 복지 혜택과 경제 지표의 핵심 기준선으로 활용됩니다.

(2) OpenClaw — 사용자의 PC나 VPS에서 독립적으로 실행되는 오픈소스 자율형 에이전트 프레임워크입니다. 사용자가 없어도 스스로 브라우저를 쓰고 목표를 달성합니다.

(3) Codex — 2026년 현재 OpenAI가 제공하는 지능형 소프트웨어 엔지니어링 실행 환경입니다. 실제 서버 환경에서 명령을 실행하고 결과를 검증할 수 있는 성능을 갖추고 있습니다.

큰 모델, 작은 모델

그러므로 Mini, Flash류의 경량 모델⁴을 적극 활용할 필요가 있습니다. 프런티어 모델⁵을 주로 사용하는 분들은 작은 모델 사용에 불편함을 느낄 겁니다. 하지만 3만 원 구독 모델에서는 Mini 모델의 활용이 거의 필수입니다. 세션이 어느 정도 쌓여서 생긴 일일 수 있겠지만 GPT-5.4 모델의 경우 2-3쿼리 만에 9%의 limit이 차감되는 것을 확인했습니다. 반대로 Mini 모델의 경우 꽤 많은 양의 자료를 찾는 지시를 했음에도 5% 내외의 차감을 보였습니다. 결과물도 꽤 만족스러웠습니다.

왜 이렇게 말을 못 알아듣지 하는 생각을 자주 하긴 했습니다만, 사실 그건 저의 사용 습관의 문제가 더 크다는 결론을 내렸습니다. 큰 모델과 작은 모델이 동일한 prompt에서 같은 실수를 보이는 것을 보며, 제가 충분한 정보를 줬다고 스스로 착각했다는 걸 깨달았습니다. 비교적 구체적인 지시를 내릴 경우 제 기준 나쁘지 않은 결과를 작은 모델에서도 얻게 되었습니다.

OpenAI도 공식 가이드(A Practical Guide to Building AI Agents)에서 “모델마다 작업 복잡도, 지연 시간, 비용 측면에서 서로 다른 강점과 절충점이 있다”고 설명합니다.

또 “모든 작업에 가장 똑똑한 모델이 필요한 것은 아니다”라고도 말합니다. 단순한 작업은 더 작고 빠른 모델이 맡고, 더 어려운 판단이 필요한 작업은 더 성능이 높은 모델이 맡는 식입니다. 그리고 마지막으로, “가능한 곳에서는 더 큰 모델을 더 작은 모델로 바꿔 비용과 지연 시간을 최적화하라”고 정리합니다.

(4) 경량 모델(Lightweight Model) — GPT-mini, Gemini Flash 등 매개변수를 줄여 속도는 높이고 비용은 낮춘 모델입니다. 에이전트의 실행 단계(Execution)에 주로 사용됩니다.

(5) 프런티어 모델(Frontier Model) — GPT-5.4처럼 현재 기술력의 정점에 있는 모델들을 통칭합니다. 고도의 판단이 필요한 '계획(Planning)' 단계에 적합합니다.

(6) Agent cron — 정해진 시간에 에이전트가 특정 작업을 반복하도록 만드는 자동화 스케줄러입니다.

어떻게 쓸 것인가?

일단 저는 개발자 수준의 코드를 생성하거나 프로젝트를 만들 생각이 없기 때문에, 100달러 이상 쓸 것인가에 대해서는 아직 잘 모르겠습니다. 충분히 맥락을 쌓고 요구사항을 최대한 반영한다면 만족스러운 결과를 얻는다는 경험을 얻었습니다. OpenAI는 가장 성능이 좋은 모델로 먼저 기준선을 만들고, 그다음 작은 모델로 바꿔도 결과가 괜찮은지 확인해 보라고 권장합니다. 그래서 현재는 프런티어 모델과 함께 제가 원하는 것을 구현할 계획을 충분히 세우고, 작은 모델에 구현을 맡기고 에이전트로서 잡일을 충분히 수행하게 해볼 생각입니다.

어떻게 쓰고 있나?

현재는 작은 단위의 앱을 만들고, AI 정보, 모델, 오픈소스 및 저명인사 트윗을 대시보드 형태로 띄워 놓고 외부에서 접속해서 사용 중입니다. 앱 통제 및 정보 업데이트는 에이전트 cron⁶을 통해 정기적으로 업데이트하게 해놓았습니다. (텔레그램을 통해 일정 메모 앱을 에이전트에 주면, 에이전트가 API를 통제하는 스킬을 활용해 업데이트하는 방식)

Hermes Agent⁷의 검색 기능이 생각보다 좋다고 할까요? 목표를 주면 10분 정도 브라우저를 열고 닫고 혼자 난리를 치더니, 꽤 괜찮은 결과를 가져옵니다. 추가로 Harness⁸에 따라 작은 모델도 꽤 긍정적인 성능을 보여주는 걸 확인했습니다. 최근 기사 및 IT 관련 자격증을 따려고 알아보고 있는데, 제가 했다면 하루 종일 찾고 정리해야 할 일을 20분 정도 뒤지더니 꽤 깔끔하게 정리해 주었습니다. (Mini 모델로요!)

설치법이나 사용법에 대해서 글을 쓸까 하다가도, 저 역시 LLM에게 공식 문서를 찾게 하고 설치법을 배워서 한 것이라 별도로 서술하지는 않겠습니다. LLM보다 잘 설명할 자신도 없고, 사실상 저도 VM을 만들고 사용하는 모든 과정이 어떻게 보면 복사 붙여넣기의 연속이 아니었나 하는 생각도 듭니다.

(7) Hermes Agent(헤르메스 에이전트) — Nous Research가 공개한 학습형 오픈소스 AI 에이전트입니다. 대화 경험을 스스로 스킬로 축적하며 성장하는 특징이 있습니다.

(8) Harness(하니스) — LLM이 실제로 도구를 쓰고 작동할 수 있게 감싸주는 구동 환경(Runtime)입니다. 어떤 하니스를 쓰느냐에 따라 같은 모델이라도 성능이 다르게 나타나기도 합니다.