IA autohospedada vs API: Lo que realmente pago (y lo que realmente obtengo)
Tabla de contenidos
Pasé tres meses autohospedando LLMs antes de darme cuenta de que estaba pagando más en tiempo del que habría pagado a OpenAI en dólares. Las matemáticas no son tan simples como las hojas de cálculo las hacen ver.
El debate de autohospedado vs API está lleno de malas matemáticas. Alguien publica una hoja de cálculo mostrando que una A100 se paga sola a los 10 millones de tokens por día. Alguien más responde que el número real es 50 millones. Ambos probablemente están equivocados para su propia carga de trabajo, porque los insumos que usan no coinciden con los tuyos.
He pasado por esto suficientes veces, tanto en mis propias configuraciones como en conversaciones en r/LocalLLaMA, para creer que la pregunta no es “¿cuál es el punto de equilibrio?” La pregunta es “¿qué realmente pago, y qué realmente obtengo?”
Este post es lo que realmente pago. Es una opinión, aproximada, y basada en mis propias facturas.
Lo que realmente ejecuto
Mi configuración de homelab:
- Una máquina con una GTX 1080 (8GB de VRAM, comprada usada por €300)
- Cluster de K3s de tres nodos en hardware antiguo
- Ollama para inferencia local rápida
- vLLM para cargas más pesadas (raramente usado)
- LiteLLM como gateway para enrutar entre local y API
Mi uso de API:
- OpenRouter para experimentos y fallback
- Kimi Code para tareas de coding
- Ocasionalmente ZAI o MiniMax cuando quiero probar algo nuevo
- A veces hosting de GPU para pruebas cuando necesito más VRAM de lo que mi 1080 puede proporcionar
Lo que realmente pago (mensual)
| Costo | Cantidad | Notas |
|---|---|---|
| Electricidad (GTX 1080 al ~80% de carga, ~4 hrs/día) | ~€15/mes | Medido con un enchufe inteligente. La electricidad en España es cara. |
| Internet (porción para homelab) | ~€10/mes | Lo pagaría de todos modos, pero asigno una porción |
| Facturas de API (OpenRouter + Kimi + otros) | ~€35/mes | Variable. Picos cuando estoy experimentando. |
| Hosting de GPU para pruebas | ~€20/mes | Solo cuando necesito más de 8GB de VRAM |
| Amortización de hardware (€300 en 3 años) | ~€8/mes | Asumiendo que lo mantengo tanto tiempo |
| Costo total cargado autohospedado | ~€48/mes | Más mi tiempo |
| Equivalente total solo API | ~€60-80/mes | Estimado para mi volumen de tokens |
El número de autohospedado se ve más barato. No lo es. No estoy contando el tiempo que gasto en ello.
Lo que realmente cuesta mi tiempo
Esto es lo que rastreé por un mes:
| Actividad | Tiempo | Qué estaba haciendo |
|---|---|---|
| Actualizaciones de drivers y depuración de CUDA | 2 horas | El driver NVIDIA 535 rompió Ollama. Tuve que hacer rollback. |
| Descargas y conversiones de modelos | 1.5 horas | Convirtiendo GGUF a safetensors para vLLM. |
| Ajuste de cuantización | 2 horas | Encontrando el tradeoff correcto de Q4_K_M vs Q5_K_M para mi uso. |
| Configuración de monitoreo y alertas | 1 hora | Scraping de Prometheus para métricas de GPU. |
| Depuración aleatoria | 2 horas | Reinicios de pods, OOMs, ralentizaciones misteriosas. |
| Total | 8.5 horas | En un mes |
A mi tarifa de consultoría, 8.5 horas son €850. A mi tarifa salarial, siguen siendo €425. Incluso a valoración de “tiempo de hobby”, es tiempo real que podría haber gastado en otra cosa.
La API no requiere nada de esto. Pago la factura y funciona. Eso vale algo.
Lo que realmente obtengo
Ventajas de autohospedado que realmente uso:
- Sin límites de tasa. Puedo ejecutar inferencia local si quiero.
- Los datos no salen de mi red. Importante para algunos experimentos.
- Puedo ejecutar modelos que no están en ninguna API. Útil para probar nuevos lanzamientos.
- Es divertido. Me gusta tinkering. Esta no es una razón de negocio, pero es una razón real.
Desventajas de autohospedado que realmente golpean:
- La calidad del modelo es menor que GPT-4o para la mayoría de tareas. Llama 3.1 8B es bueno, pero no es GPT-4o.
- La ventana de contexto es pequeña. Mi GTX 1080 no puede ejecutar modelos de contexto 128K. Lucha con 32K.
- El tiempo de configuración para nuevos modelos es real. Descargar, convertir, probar, ajustar. Cada vez.
- El downtime es mi problema. Cuando se va la luz o el driver se rompe, lo arreglo yo.
- La VRAM es el cuello de botella. 8GB no es suficiente para modelos modernos. A menudo necesito usar APIs para cualquier cosa seria.
Ventajas de API que realmente uso:
- Mejor calidad de modelo para tareas complejas.
- Cero mantenimiento. No pienso en drivers, CUDA, o cuantización.
- Escala a cero. Cuando no lo uso, no pago.
- Más rápido para tareas pequeñas. Sin arranque en frío, sin carga de modelo.
- Acceso a modelos que no caben en mi hardware.
Desventajas de API que realmente golpean:
- Límites de tasa durante uso intensivo. He golpeado límites de OpenRouter durante experimentos.
- Los costos pueden dispararse. Un bucle malo o un script descontrolado puede quemar €10 en una hora.
- Los datos salen de mi red. No es ideal para cargas de trabajo sensibles.
- Bloqueo de proveedor. Los precios cambian, los modelos se deprecan.
El punto de equilibrio real
Para mi carga de trabajo, el punto de equilibrio no es sobre conteo de tokens. Es sobre lo que valoro.
Si valoro mi tiempo en cero y disfruto el tinkering, el autohospedado es más barato.
Si valoro mi tiempo en algo razonable, la API es más barata para todo excepto cargas de trabajo de alto volumen, latencia sensible, y críticas para privacidad.
Mi división actual:
- Autohospedado: Experimentos locales, código sensible a privacidad, modelos pequeños que caben en la GTX 1080.
- API: Tareas de producción, razonamiento complejo, asistencia de coding, modelos mayores a 8B, cualquier cosa donde el downtime sea molesto.
Esto no es una prueba de pureza. Uso ambos. La pregunta es cuál para qué tarea.
Qué haría diferente
Tres cosas que aprendí haciéndolo mal:
- Empieza con la API. Prueba que la carga de trabajo existe y que la calidad del modelo es aceptable antes de comprar nada. Compré la GTX 1080 antes de saber para qué la usaría. No lo haría de nuevo.
- Alquila antes de comprar. Un mes en GPU cloud cuesta una fracción de una A100 y te dice si tus suposiciones sobre throughput y latencia son reales. No hice esto. Debería haberlo hecho.
- Rastrea tu tiempo honestamente. El costo del hardware no es el costo real. El tiempo que pasas depurando CUDA es el costo real. Lo rastreé por un mes y me sorprendió.
Lo que le digo a la gente ahora
Cuando alguien en r/LocalLLaMA pregunta “¿debería autohospedar?” le hago tres preguntas:
- ¿Disfrutas la administración de sistemas? Si no, el autohospedado te hará miserable.
- ¿Tu carga de trabajo es estable y de alto volumen? Si no, la API probablemente sea más barata.
- ¿Tienes un requisito específico de privacidad o latencia? Si sí, el autohospedado podría valer la pena. Si no, la API probablemente esté bien.
Si la respuesta a las tres no es un claro sí, les digo que empiecen con la API. Siempre pueden autohospedar después. El reverso es más difícil.
La conclusión honesta
La IA autohospedada puede ser más barata que el acceso por API, pero solo si valoras tu tiempo en cero y disfrutas el trabajo. Para la mayoría de la gente, la API es la mejor opción. No se trata solo del costo por token. Se trata del costo total de propiedad, incluyendo el costo de tu atención.
Todavía autohospedo porque lo disfruto y porque parte de mi trabajo es sensible a privacidad. Pero soy honesto sobre el costo. No me está ahorrando dinero. Me está costando tiempo a cambio de control y diversión.
Si estás tomando esta decisión para un equipo, las matemáticas son aún más simples. Multiplica mis 8.5 horas por el tamaño de tu equipo. Eso es lo que realmente cuesta el autohospedado. Compáralo con la factura de la API. La respuesta suele ser obvia.
La GTX 1080 es una buena herramienta de aprendizaje. No es un servidor de inferencia de producción. Conoce la diferencia.