LiteLLM Kubernetes: Configurar Tools y Providers
Tabla de contenidos
Parte 3 de 4. En la Parte 2 desplegamos LiteLLM en Kubernetes. Ahora conectamos las herramientas de IA y exploramos la configuración de proveedores. Continúa a Parte 4: Fortalecimiento en Producción y Troubleshooting.
LiteLLM es un proxy de IA open-source que normaliza las APIs de más de 100 proveedores tras un endpoint compatible con OpenAI. Tus herramientas CLI, IDEs y agentes usan el mismo protocolo. LiteLLM traduce al formato nativo de cada proveedor. Para más contexto, revisa la Parte 1: Arquitectura.
Paso 4: Configurar Tus Herramientas de IA
Aquí es donde la arquitectura rinde frutos. En vez de meter API keys en cada herramienta, apuntas todo a LiteLLM.
Configuración de OpenCode
Aquí está mi settings.json de OpenCode que conecta con LiteLLM:
{ "provider": { "litellm": { "npm": "@ai-sdk/openai-compatible", "name": "LiteLLM", "options": { "baseURL": "http://litellm.tu-dominio.com/v1", "apiKey": "sk-tu-litellm-master-key" }, "models": { "kimi-code": { "name": "Kimi Code" }, "nvidia-llama": { "name": "NVIDIA Llama" }, "openrouter-free": { "name": "OpenRouter Free" }, "openrouter-free-trending": { "name": "OpenRouter Free Trending" } } } }}Nota: OpenCode no autoload los modelos desde LiteLLM todavía, los defino manualmente en la sección
models. Si lo resuelves, ¡cuéntame!
Cursor, Continue.dev o Cualquier Herramienta Compatible con OpenAI
Cualquier herramienta que admita endpoints compatibles con OpenAI funciona con LiteLLM. El patrón nunca cambia: configura la URL base con tu endpoint de LiteLLM y usa tu master key como API key. Para más patrones de IA en Kubernetes, consulta desplegar-ollama-kubernetes.
| Herramienta | Configuración | Valor |
|---|---|---|
| Cursor | OpenAI API Key | sk-tu-litellm-master-key |
| Cursor | OpenAI Base URL | http://<tu-nodo>:<node-port>/v1 |
| Continue.dev | apiBase | http://<tu-nodo>:<node-port>/v1 |
| Herramientas CLI | OPENAI_API_KEY | sk-tu-litellm-master-key |
| Herramientas CLI | OPENAI_BASE_URL | http://<tu-nodo>:<node-port>/v1 |
Acceso vía Tailscale
Expondré LiteLLM mediante Tailscale para acceso seguro desde cualquier lugar:
http://litellm.tu-dominio.com/v1Esto significa que mi portátil, móvil y VMs cloud pueden llegar al mismo gateway de IA sin abrir puertos del firewall ni gestionar VPNs.
Verificación y Testing
Validemos que todo funcione.
1. Test de Health de LiteLLM
curl http://<tu-nodo-ip>:<node-port>/health/liveliness# Esperado: {"status":"healthy"}2. Listar Modelos Disponibles
curl http://<tu-nodo-ip>:<node-port>/v1/models \ -H "Authorization: Bearer sk-tu-litellm-master-key"Deberías ver tus modelos configurados: kimi-code, openrouter-free, nvidia-llama y openrouter-free-trending.
3. Enviar un Test de Chat Completion
curl http://<tu-nodo-ip>:<node-port>/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer sk-tu-litellm-master-key" \ -d '{ "model": "kimi-code", "messages": [{"role": "user", "content": "Escribe una función en Python para invertir un string"}] }'Si obtienes una respuesta válida, tu gateway está funcionando.
4. Test de Fallback de Proveedor
Prueba la misma request con openrouter-free:
curl http://<tu-nodo-ip>:<node-port>/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer sk-tu-litellm-master-key" \ -d '{ "model": "openrouter-free", "messages": [{"role": "user", "content": "¡Hola!"}] }'Sin cambiar API keys. Sin tocar configuraciones. Solo cambias el nombre del modelo. Ese es el núcleo de LiteLLM, los clientes se quedan igual mientras controlas el ruteo desde el servidor.
Deep Dive en la Configuración de Proveedores
Kimi Code
Kimi Code es el modelo de Moonshot AI especializado en código. Según la documentación de Kimi, requiere headers específicos para compatibilidad.
| Parámetro | Valor | Por Qué |
|---|---|---|
model | openai/kimi-for-coding | Mapeo de proveedor de LiteLLM |
api_base | https://api.kimi.com/coding/v1 | Endpoint de API de coding de Kimi |
User-Agent | claude-code/0.1.0 | Requerido para compatibilidad de API |
X-Kimi-Client | Kimi-Code | Identifica el tipo de cliente |
Sin headers personalizados obtienes errores de autenticación.
OpenRouter
OpenRouter agrega modelos gratuitos y de pago de docenas de proveedores. Su tier gratuito desbloquea DeepSeek, Qwen, Mistral y más, todos con límites de rate razonables.
| Parámetro | Valor | Por Qué |
|---|---|---|
model | openai/openrouter/free | Rutea a modelos de tier gratuito |
HTTP-Referer | Tu dominio | Requerido para ranking de OpenRouter |
X-Title | Nombre de tu app | Aparece en analytics de OpenRouter |
El header HTTP-Referer es obligatorio. OpenRouter lo usa para atribución y prevención de abuso. Proporciona tu dominio real o perfil de GitHub. El header X-Title permite identificar tu tráfico en el dashboard de OpenRouter.
NVIDIA NIM
NVIDIA NIM (NVIDIA Inference Microservices) ofrece inferencia optimizada para modelos Llama. Su tier gratuito es lo bastante generoso para experimentación seria.
| Parámetro | Valor | Por Qué |
|---|---|---|
model | nvidia_nim/meta/llama-4-maverick-17b-128e-instruct | Modelo NIM específico |
api_key | os.environ/NVIDIA_NIM_API_KEY | Extraído del entorno |
NVIDIA NIM no requiere headers personalizados, solo una API key válida de build.nvidia.com. Es el proveedor más simple de configurar.
Preguntas Frecuentes
¿Puedo usar cualquier herramienta compatible con OpenAI con LiteLLM?
Sí. Configura la URL base con tu endpoint de LiteLLM y la API key con tu master key. Cursor, Continue.dev, OpenCode y herramientas CLI funcionan.
¿Por qué Kimi Code necesita headers personalizados?
La API de Kimi requiere un User-Agent y X-Kimi-Client específicos para compatibilidad. Sin ellos obtendrás errores de autenticación.
¿Cómo añado un nuevo modelo?
Añade una entrada a model_list en tu proxy_config.yaml, define el ruteo al proveedor y reinicia el deployment.
¿Qué pasa si un proveedor falla?
Puedes configurar fallback routing. LiteLLM reintenta automáticamente con otro proveedor en caso de error.
Tus herramientas están conectadas a través de LiteLLM. Continúa a Parte 4: Fortalecimiento en Producción y Troubleshooting para asegurar y monitorizar el setup.
¿Has llegado hasta aquí? Conoce al ingeniero detrás de la serie.