LiteLLM Kubernetes: Configurar Tools y Providers

Parte 3 de 4. En la Parte 2 desplegamos LiteLLM en Kubernetes. Ahora conectamos las herramientas de IA y exploramos la configuración de proveedores. Continúa a Parte 4: Fortalecimiento en Producción y Troubleshooting.

LiteLLM es un proxy de IA open-source que normaliza las APIs de más de 100 proveedores tras un endpoint compatible con OpenAI. Tus herramientas CLI, IDEs y agentes usan el mismo protocolo. LiteLLM traduce al formato nativo de cada proveedor. Para más contexto, revisa la Parte 1: Arquitectura.

Paso 4: Configurar Tus Herramientas de IA

Aquí es donde la arquitectura rinde frutos. En vez de meter API keys en cada herramienta, apuntas todo a LiteLLM.

Configuración de OpenCode

Aquí está mi settings.json de OpenCode que conecta con LiteLLM:

{
  "provider": {
    "litellm": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "LiteLLM",
      "options": {
        "baseURL": "http://litellm.tu-dominio.com/v1",
        "apiKey": "sk-tu-litellm-master-key"
      },
      "models": {
        "kimi-code": {
          "name": "Kimi Code"
        },
        "nvidia-llama": {
          "name": "NVIDIA Llama"
        },
        "openrouter-free": {
          "name": "OpenRouter Free"
        },
        "openrouter-free-trending": {
          "name": "OpenRouter Free Trending"
        }
      }
    }
  }
}

Nota: OpenCode no autoload los modelos desde LiteLLM todavía, los defino manualmente en la sección models. Si lo resuelves, ¡cuéntame!

Cursor, Continue.dev o Cualquier Herramienta Compatible con OpenAI

Cualquier herramienta que admita endpoints compatibles con OpenAI funciona con LiteLLM. El patrón nunca cambia: configura la URL base con tu endpoint de LiteLLM y usa tu master key como API key. Para más patrones de IA en Kubernetes, consulta desplegar-ollama-kubernetes.

Herramienta	Configuración	Valor
Cursor	OpenAI API Key	`sk-tu-litellm-master-key`
Cursor	OpenAI Base URL	`http://<tu-nodo>:<node-port>/v1`
Continue.dev	`apiBase`	`http://<tu-nodo>:<node-port>/v1`
Herramientas CLI	`OPENAI_API_KEY`	`sk-tu-litellm-master-key`
Herramientas CLI	`OPENAI_BASE_URL`	`http://<tu-nodo>:<node-port>/v1`

Acceso vía Tailscale

Expondré LiteLLM mediante Tailscale para acceso seguro desde cualquier lugar:

http://litellm.tu-dominio.com/v1

Esto significa que mi portátil, móvil y VMs cloud pueden llegar al mismo gateway de IA sin abrir puertos del firewall ni gestionar VPNs.

Verificación y Testing

Validemos que todo funcione.

1. Test de Health de LiteLLM

curl http://<tu-nodo-ip>:<node-port>/health/liveliness
# Esperado: {"status":"healthy"}

2. Listar Modelos Disponibles

curl http://<tu-nodo-ip>:<node-port>/v1/models \
  -H "Authorization: Bearer sk-tu-litellm-master-key"

Deberías ver tus modelos configurados: kimi-code, openrouter-free, nvidia-llama y openrouter-free-trending.

3. Enviar un Test de Chat Completion

curl http://<tu-nodo-ip>:<node-port>/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-tu-litellm-master-key" \
  -d '{
    "model": "kimi-code",
    "messages": [{"role": "user", "content": "Escribe una función en Python para invertir un string"}]
  }'

Si obtienes una respuesta válida, tu gateway está funcionando.

4. Test de Fallback de Proveedor

Prueba la misma request con openrouter-free:

curl http://<tu-nodo-ip>:<node-port>/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-tu-litellm-master-key" \
  -d '{
    "model": "openrouter-free",
    "messages": [{"role": "user", "content": "¡Hola!"}]
  }'

Sin cambiar API keys. Sin tocar configuraciones. Solo cambias el nombre del modelo. Ese es el núcleo de LiteLLM, los clientes se quedan igual mientras controlas el ruteo desde el servidor.

Deep Dive en la Configuración de Proveedores

Kimi Code

Kimi Code es el modelo de Moonshot AI especializado en código. Según la documentación de Kimi, requiere headers específicos para compatibilidad.

Parámetro	Valor	Por Qué
`model`	`openai/kimi-for-coding`	Mapeo de proveedor de LiteLLM
`api_base`	`https://api.kimi.com/coding/v1`	Endpoint de API de coding de Kimi
`User-Agent`	`claude-code/0.1.0`	Requerido para compatibilidad de API
`X-Kimi-Client`	`Kimi-Code`	Identifica el tipo de cliente

Sin headers personalizados obtienes errores de autenticación.

OpenRouter

OpenRouter agrega modelos gratuitos y de pago de docenas de proveedores. Su tier gratuito desbloquea DeepSeek, Qwen, Mistral y más, todos con límites de rate razonables.

Parámetro	Valor	Por Qué
`model`	`openai/openrouter/free`	Rutea a modelos de tier gratuito
`HTTP-Referer`	Tu dominio	Requerido para ranking de OpenRouter
`X-Title`	Nombre de tu app	Aparece en analytics de OpenRouter

El header HTTP-Referer es obligatorio. OpenRouter lo usa para atribución y prevención de abuso. Proporciona tu dominio real o perfil de GitHub. El header X-Title permite identificar tu tráfico en el dashboard de OpenRouter.

NVIDIA NIM

NVIDIA NIM (NVIDIA Inference Microservices) ofrece inferencia optimizada para modelos Llama. Su tier gratuito es lo bastante generoso para experimentación seria.

Parámetro	Valor	Por Qué
`model`	`nvidia_nim/meta/llama-4-maverick-17b-128e-instruct`	Modelo NIM específico
`api_key`	`os.environ/NVIDIA_NIM_API_KEY`	Extraído del entorno

NVIDIA NIM no requiere headers personalizados, solo una API key válida de build.nvidia.com. Es el proveedor más simple de configurar.

Preguntas Frecuentes

¿Puedo usar cualquier herramienta compatible con OpenAI con LiteLLM?

Sí. Configura la URL base con tu endpoint de LiteLLM y la API key con tu master key. Cursor, Continue.dev, OpenCode y herramientas CLI funcionan.

¿Por qué Kimi Code necesita headers personalizados?

La API de Kimi requiere un User-Agent y X-Kimi-Client específicos para compatibilidad. Sin ellos obtendrás errores de autenticación.

¿Cómo añado un nuevo modelo?

Añade una entrada a model_list en tu proxy_config.yaml, define el ruteo al proveedor y reinicia el deployment.

¿Qué pasa si un proveedor falla?

Puedes configurar fallback routing. LiteLLM reintenta automáticamente con otro proveedor en caso de error.

Tus herramientas están conectadas a través de LiteLLM. Continúa a Parte 4: Fortalecimiento en Producción y Troubleshooting para asegurar y monitorizar el setup.

¿Has llegado hasta aquí? Conoce al ingeniero detrás de la serie.