LiteLLM Kubernetes: Arquitectura e Intro

Parte 1 de 4. Esta serie cubre la construcción de un gateway de IA centralizado con LiteLLM en Kubernetes. Parte 2 → Despliegue a Producción · Parte 3 → Configuración de Herramientas · Parte 4 → Fortalecimiento en Producción

Gestionar múltiples proveedores de IA se convierte en una pesadilla de mantenimiento. Un mes tu modelo estrella es barato y rapidísimo. Al siguiente, el proveedor sube precios, reestructura tiers o depreca la API sin avisar. De repente estás cazando API keys en cinco herramientas distintas: tu IDE, asistente CLI, scripts de automatización, chatbot y ese side project que olvidaste.

Yo me harté de ese circo.

Así que instalé LiteLLM en mi cluster de Kubernetes. Ahora todo pasa por un único endpoint con una sola master key. ¿Cambiar de proveedor? Actualizas un archivo de configuración y listo.

Esta serie desglosa la arquitectura exacta que uso a diario: configs reales, proveedores reales, cero rodeos. Aprenderás a desplegar un gateway de IA centralizado que elimina para siempre el caos de las API keys.

Qué Es LiteLLM

LiteLLM es un gateway de IA open-source que expone una única API compatible con OpenAI para más de 100 proveedores. Olvídate del formato de autenticación, la estructura de endpoints y los schemas de cada proveedor. Envías requests estándar de OpenAI a LiteLLM; él hace la traducción.

LiteLLM procesa millones de llamadas a API diarias en despliegues enterprise y self-hosted. Preserva features específicas de cada proveedor (function calling, streaming, tool use) mientras abstrae la complejidad tras una interfaz unificada.

“El futuro de la infraestructura de IA no se trata de elegir un modelo, se trata de rutear al modelo correcto en el momento correcto. LiteLLM hace eso posible sin reescribir tu código de aplicación.” Ishaan Jaffer, creador de LiteLLM

Qué Vas a Construir

Un LiteLLM Proxy en Kubernetes que sirve como gateway unificado a múltiples proveedores de IA:

Kimi Code: generación de código de alta calidad
OpenRouter: modelos gratuitos y trending
NVIDIA NIM: modelos Llama vía el stack de inferencia de NVIDIA

Tus agentes de código, IDEs y scripts apuntan a una sola URL. Tú decides qué modelo usan, y puedes cambiar esa decisión al instante. Sin actualizar ningún cliente.

Una encuesta de Retool en 2025 reveló que el 62% de los equipos de ingeniería manejan tres o más proveedores de IA simultáneamente. Gestionar API keys a través de tantas herramientas genera una fricción operativa real, exactamente el problema que LiteLLM elimina.

Tiempo estimado: 20–30 minutos
Dificultad: Intermedio
Coste: Gratis (usa tiers gratuitos y tu cluster de K8s existente)

Prerrequisitos

Antes de empezar, confirma que tienes esto listo. Si no me conoces, soy un macaco técnico que escribe sobre infraestructura en producción y sistemas de IA.

Requisito	Mínimo	Recomendado	Comando de Verificación
Cluster Kubernetes	1 nodo, 2 vCPU	2+ nodos, 4 vCPU	`kubectl version`
kubectl	v1.28+	v1.30+	`kubectl version --client`
Almacenamiento	1 GB para config	5 GB+ para logs	`df -h`
Postgres	Externo o en-cluster	Instancia dedicada	`psql --version`
Tailscale (opcional)	N/A	Para acceso remoto seguro	`tailscale status`

También necesitarás API keys para los proveedores que quieras rutear:

Visión de la Arquitectura

Así encaja todo:

┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│   OpenCode IDE  │────▶│  LiteLLM Proxy  │────▶│   Kimi Code     │
│   (Tu Agente)   │     │  (K8s NodePort) │     │   (LLM Coding)  │
└─────────────────┘     │                 │     └─────────────────┘
                        │   <tu-nodo>     │────▶┌─────────────────┐
                        │   :<node-port>  │     │  OpenRouter     │
                        │                 │     │  (Free Models)  │
                        │  Single API Key │     └─────────────────┘
                        │  Multiple Models│────▶┌─────────────────┐
                        └─────────────────┘     │  NVIDIA NIM     │
                                                │  (Llama 4)      │
                                                └─────────────────┘

Flujo de datos:

Tu cliente lanza una request estándar de OpenAI a LiteLLM
LiteLLM busca el modelo en su config y rutea al proveedor adecuado
El proveedor responde, LiteLLM retransmite el resultado
Todas las API keys quedan en el servidor; los clientes solo conocen la master key

Preguntas Frecuentes

¿Qué es LiteLLM?

Un gateway de IA open-source que expone una API unificada compatible con OpenAI para más de 100 proveedores. Gestiona autenticación, traducción de requests y ruteo tras un único endpoint.

¿Por qué desplegar LiteLLM en Kubernetes?

Gestión centralizada, configuración persistente, acceso compartido entre herramientas y escalado sin cambios en los clientes, sin caos de API keys.

¿Es LiteLLM gratuito?

Sí. LiteLLM tiene licencia MIT y está disponible en GitHub. Puedes alojarlo tú mismo donde quieras.

¿Qué proveedores soporta?

Más de 100 incluyendo OpenAI, Anthropic, Kimi, OpenRouter, NVIDIA NIM, Groq, Together AI y más. Añade cualquiera mediante proxy_config.yaml.

¿LiteLLM funciona sin Kubernetes?

Sí, puedes ejecutarlo localmente con Docker o como paquete de Python. Kubernetes añade gestión centralizada para producción.

¿Listo para desplegar? Continúa a Parte 2: Despliegue de LiteLLM en Kubernetes.