로컬 AI 에이전트 만들기: Local LLM 하드웨어와 운영 비용 정리

라는 주제의 유튜브 영상을 몇 개 보았습니다.

순수하게 로컬 LLM 사용에 대한 내용도 있었으나, 사실 제 눈에 걸린 것은 광고였습니다. 고성능 그래픽 카드가 들어간 노트북, 개인적으로는 AI보다는 게이밍 노트북의 포지션에 더 가까워 보였고, DGX Spark¹ 류의 “개인 슈퍼컴퓨터”라는 브랜딩이 붙은 고성능 워크스테이션 광고였습니다.

내용은 사실을 담고 있습니다. 로컬에서 LLM을 돌릴 수 있고, 그것으로 에이전트를 개발하거나 OpenClaw², Hermes³ 류의 에이전트를 돌릴 수도 있습니다.

다만 모두를 말하지는 않았습니다. 완전히 거짓이라고 보긴 어렵습니다. 하지만 초보자가 판단하는 데 필요한 중요한 조건들이 빠져 있다면, 결과적으로는 꽤 큰 오해를 만드는 말이 될 수 있습니다.

(1) DGX Spark — NVIDIA가 로컬 AI 개발·연구용으로 내세우는 소형 워크스테이션입니다. 단일 장비는 최대 200B, 두 대를 연결한 dual-Spark 구성은 최대 405B 모델까지를 공식 지원 범위로 설명합니다. 다만 DeepSeek-R1처럼 671B급 reasoning 모델은 NVIDIA도 실시간 추론에 다중 GPU 서버급 구성이 필요하다고 설명하므로, 반복 호출이 많은 에이전트 실행용으로는 추론 속도와 운영 난이도를 함께 봐야 합니다. DGX Spark Hardware Overview → / Connect Two Sparks → / DeepSeek-R1 with NVIDIA NIM →

(2) OpenClaw — 로컬에 Gateway와 agent runtime을 두고, LLM이 파일·브라우저·메시지·외부 API 같은 도구를 호출해 작업을 수행하게 만드는 오픈소스 에이전트 플랫폼입니다. 모델 자체보다 실행 권한, 작업 공간, 도구 연결, 보안 설정이 중요한 제품군입니다. OpenClaw Agent Runtime →

(3) Hermes — OpenClaw와 비슷하게 개인 워크플로우를 에이전트화하는 용도로 언급되는 에이전트 실행 도구입니다. 사용자는 모델을 붙이고, 외부 채널과 도구를 연결해 반복 업무를 자동화하는 형태로 접근합니다.

자세한 설명은 생략한다 짤

AI 생성 이미지

채널의 성격상 구독자들은 AI 정보와 프로그래밍을 배우기 위한 사람들이고, 현업 엔지니어나 개발자보다는 비개발자가 주류일 가능성이 높다고 생각합니다. 그런 사람들에게 수백만 원대의 고가 연구·개발용 제품을 추천하는 것은, 애초에 광고 타겟팅부터 잘못된 것 아닌가 싶었습니다.

그래서 꽤 아쉽습니다. 광고를 받아 경제활동을 하는 것 자체는 비난받을 일이 아닙니다. 다만 장기적으로 봤을 때, 구독자와의 신뢰를 매우 저렴한 값에 교환한 것이 아닐까 하는 아쉬움이 듭니다.

로컬 모델은 생각보다 작고, 클라우드 모델은 생각보다 강합니다

LLM 모델은 상당히 많은 메모리를 차지합니다.

저는 지금 맥북 프로 24GB 메모리 제품으로 1B에서 32B 정도 모델까지 돌려보았습니다. 결론부터 말하면, Gemini Flash Lite⁴ 모델보다 못하다는 느낌을 강하게 받았습니다. 저도 로컬 모델에 대한 환상으로 꽤 무리하게 구매했습니다. 조금 더 스펙을 낮춰서 사도, 제가 사용하는 정도 수준에서는 충분했을 텐데 말입니다.

장문의 글을 청킹하여 가공하는 작업을 시켰을 때, 클라우드 모델은 원문과 비교해도 손실이 거의 없이 완료했습니다.

하지만 로컬 모델은 중간중간 내용을 누락시키거나, 원문을 제대로 이해하지 못하는 등 아쉬운 성능을 보여주었습니다. 공개된 파라미터는 없으나, Flash Lite 모델도 보통의 가정에서 돌릴 수 있는 모델보다는 파라미터가 클 것이라고 생각됩니다.

물론 로컬 모델 자체를 부정하려는 것은 아닙니다. 저도 직접 돌려보는 과정에서 많이 배웠고, 특정 용도에서는 충분히 쓸모가 있다고 생각합니다.

예를 들면 특정 모델 기반의 TTS, 임베딩, 간단한 분류, 초벌 요약, 민감한 텍스트의 사전 처리 같은 용도에서는 로컬 모델이 의미가 있을 수 있습니다. 작은 모델을 특정 업무에 맞게 잘 붙이면, 굳이 매번 클라우드 모델을 호출하지 않아도 되는 영역은 분명 있습니다.

다만 이것도 “그냥 설치하면 클라우드 서비스처럼 바로 쓸 수 있다”는 의미는 아닙니다. 클라우드 서비스 수준으로 안정적으로 쓰려면 결국 모델 선택, 프롬프트 조정, 데이터 정리, 후처리, 경우에 따라서는 튜닝까지 필요할 것으로 보입니다.

가격 비교

API 비용도 꽤 많은 작업을 돌렸음에도 100원 미만으로 나온 경우가 있었습니다. 물론 모델의 성능이 좋아질수록 가격은 개인이 감당하기 부담스럽게 올라갑니다. 다만 개인용 컴퓨터에서 돌릴 수 있는 수준의 로컬 모델과 비교하는 것이니, 이 부분은 너른 양해를 부탁드립니다.

여기서 중요한 건 초기 비용입니다. API는 사용한 만큼 조금씩 비용이 나갑니다. 반면 로컬 장비는 시작하는 순간 수십만 원에서 수백만 원의 비용이 먼저 들어갑니다.

2026년 5월 3일 공식 가격표의 Standard/Paid tier 기준으로, 대략적인 비교는 이렇습니다.

선택지	시작 비용	계속 비용	현실적인 의미
클라우드 API	장비 구매 비용 없음	사용량 과금	작은 실험은 몇십 원에서 몇백 원 단위로 끝날 수 있음
GPT-5.5 API⁵	장비 구매 비용 없음	입력 $5.00 / 캐시 입력 $0.50 / 출력 $30.00 per 1M tokens	OpenAI 최신 flagship 모델 기준이라 로컬 30B급과 직접 비교하면 체급 차이가 큼
GPT-5.4-mini API⁵	장비 구매 비용 없음	입력 $0.75 / 캐시 입력 $0.075 / 출력 $4.50 per 1M tokens	OpenAI 최신 mini 계열 기준, 반복 작업 실험용 비교 대상으로 더 적절함
Gemini 3.1 Pro Preview API⁴	장비 구매 비용 없음	입력 $2.00 / 출력 $12.00 per 1M tokens, 200k 토큰 이하	Google 최신 Pro Preview 기준, 장문·에이전트 성능 비교용
Gemini 3.1 Flash-Lite Preview API⁴	장비 구매 비용 없음	입력 $0.25 / 출력 $1.50 per 1M tokens	Google 최신 Flash-Lite 계열 기준, 저비용 대량 처리 실험용
Mac mini M4⁶	1,190,000원(16GB/512GB 기준)	전기요금, 주변기기, 세팅 시간	로컬 실험용 입문 장비로는 가능하지만 모델 성능 한계가 있음
DGX Spark	미국 표시가 $4,699	전기요금, 환경 구성, 유지보수	연구·개발용 장비에 가깝고 입문자에게는 과함

(4) Gemini API — Google이 Gemini 모델을 애플리케이션에서 호출할 수 있게 제공하는 API입니다. Gemini Flash Lite 같은 빠른 응답용 모델도 포함되며, 로컬 모델과 비교할 클라우드 모델 제공 방식 중 하나입니다. Gemini API 문서 →

(5) OpenAI API — OpenAI가 GPT 계열 모델을 애플리케이션에서 호출할 수 있게 제공하는 API입니다. ChatGPT 구독형 사용과 달리 작업 단위로 모델을 호출하고, 다른 모델과 직접 비교하기 쉬운 방식입니다. OpenAI API 문서 →

(6) Mac mini M4 — Apple Silicon 기반의 소형 데스크톱 Mac입니다. 통합 메모리 구조 덕분에 CPU와 GPU가 같은 메모리 풀을 공유하므로, 일반 PC보다 작은 크기와 낮은 소음으로 로컬 LLM을 실험하기 좋다는 이유로 자주 거론됩니다. 최근에는 OpenClaw나 Hermes 같은 개인 에이전트 런타임을 상시 실행하는 장비로 관심을 받지만, 실제로 돌릴 수 있는 모델 크기는 메모리 구성에 크게 묶입니다. Apple Mac mini →

에이전트용으로 사용하기 위해서 맥미니를 구매한다? 16GB/512GB 구성만 해도 119만 원입니다.

DGX Spark의 경우 미국 표시 가격만 보아도 4,699달러입니다. 환율, 세금, 국내 유통 비용까지 고려하면 한화로는 수백만 원대 후반을 생각해야 합니다.

로컬에서 AI를 돌리고, 이 모델로 에이전트를 개발하거나 OpenClaw, Hermes 류의 에이전트를 돌린다. 말 자체는 거짓이 아닙니다.

하지만 실사용은 절대로 쉽지 않을 거라 생각합니다.

월 수만 원대 구독으로 거의 세상에서 가장 좋은 모델들을 사용하다가, 30B 양자화 모델을 사용하면 역체감이 어떨까요? 30B도 개인이 돌리기엔 상당히 큰 모델입니다.

제 작고 귀여운 뇌로는 장점을 찾기 어렵습니다

제 작고 귀여운 뇌로는 도저히 로컬 모델을 위한 워크스테이션 구입의 장점을 쉽게 찾지 못하겠습니다.

성능을 포기해야 할 수 있습니다. 세팅 난이도를 감당해야 합니다. 모델 선택을 직접 해야 합니다. 속도와 메모리 제약을 감수해야 합니다. 전기요금, 발열, 소음, 유지보수도 신경 써야 합니다.

돈이 너무 많다면, 이걸 재미로 파고드는 입문자라면 몰라도, “AI로 뭔가를 만들어보고 싶다”는 사람에게는 시작점으로 너무 무겁습니다.

“민감한 정보를 해외 AI 서버에 넘기지 말고 로컬 모델에서 처리하세요”를 주요 장점으로 꼽습니다. 그런데 이건 성능을 포기하고 선택해야 할 만큼 중요한 부분인가를 고민해봐야 할 것입니다.

보안이 중요한 기업이라면 저런 제품보다 GPU 서버를 구성하거나, 기업 간 클라우드 계약을 하지 않을까요?

기존 서비스의 비용 상승과 정보보안 관점에서 로컬 AI에 관심을 가지는 것 자체는 충분히 이해할 수 있다고 생각합니다.

다만 이제 막 AI를 배우는 사람에게 “나만의 에이전트”라는 말과 함께 수백만 원짜리 장비를 먼저 떠올리게 만드는 흐름은 꽤 위험해 보입니다.

그럼에도 불구하고

로컬 모델 계열을 경험해 보고 싶다면, 먼저 무료 API나 클라우드에서 제공하는 오픈 모델부터 테스트해보는 편이 낫다고 생각합니다.

현재 여러 서비스에서 최신 오픈 모델들을 API 형태로 써볼 수 있습니다. 먼저 볼 만한 곳은 NVIDIA API Catalog⁷입니다. NVIDIA-hosted NIM API를 무료로 체험할 수 있고, DeepSeek와 Gemma 일부 모델도 Free Endpoint로 열려 있습니다. OpenClaw 류의 에이전트 런타임에 붙여서 테스트해볼 수도 있습니다. GPT Pro, mini 모델과 직접 비교도 가능합니다. 장비를 사기 전에 같은 작업을 클라우드 모델과 오픈 모델에 나란히 시켜보면, 역체감이 어느 정도인지 바로 알 수 있습니다.

실제로 사용해보고 위 사항을 모두 고려한 뒤에도 구매하겠다면 말리진 않겠습니다.

다만 온디바이스⁸ 모델에 대한 환상은, 기술이 조금 더 올라올 때까지 잠시 접어두는 편이 낫지 않을까 싶습니다.

(7) NVIDIA API Catalog / NIM API — NVIDIA가 오픈 모델과 자체 모델을 브라우저 및 API 호출로 시험해볼 수 있게 제공하는 서비스입니다. DeepSeek와 Gemma 같은 오픈 모델도 API 형태로 사용해볼 수 있습니다. NVIDIA API Catalog → / DeepSeek on NVIDIA API Catalog → / Gemma on NVIDIA API Catalog →

(8) 온디바이스 AI(On-device AI) — 클라우드 서버가 아니라 사용자의 기기 안에서 모델을 실행하는 방식입니다. 개인정보 보호와 지연시간 측면에서는 장점이 있지만, 모델 성능·메모리·발열·세팅 난이도를 기기 안에서 직접 감당해야 하므로 “클라우드와 같은 경험을 내 컴퓨터로 옮긴다”는 식으로 단순화하면 오해가 생깁니다.

AI 에이전트 컨설팅 문의

AI 에이전트는 설치보다 운영 구조가 더 중요합니다.

Boilerplate는 Codex CLI, Claude Code, Hermes Agent, OpenClaw, 자동화 서버, 개인 업무 자동화 흐름을 실제 사용 환경에 맞게 정리합니다.

윈도우 PC, Mac mini, Linux 홈서버, VPS 중 어디에 설치할지부터 정하고, 계정·보안·백업·자동 실행까지 함께 설계합니다.

AI 에이전트 컨설팅 문의하기