vLLM Producción: Checklist Comparación y Fixes

2026.02.18
Technology
546 Words
vLLM Producción: Checklist Comparación y Fixes

Parte 5 de 6. En la Parte 4 cubrimos ajuste de rendimiento y monitoreo. Aquí comparamos vLLM con Ollama, revisamos el checklist de producción y solucionamos problemas comunes. Continúa en Parte 6: Conclusión y FAQ.

vLLM vs Ollama: Comparación de motores de inferencia

Usa vLLM para servir usuarios externos. Usa Ollama para prototipado local. Ambos son excelentes, pero sus arquitecturas apuntan a entornos completamente diferentes.

FactorvLLMOllama
Caso de usoInferencia en producción a escalaDesarrollo local
Throughput3–5× mayor (continuous batching)Moderado
APICompatible con OpenAIAPI REST propia
Multi-GPUTensor parallelism nativoLimitado
CuantizaciónAWQ, GPTQ, FP8GGUF (Q4_0, Q4_K_M)
KubernetesSoporte first-classOrquestación manual
Ideal para100+ usuarios concurrentesPrototipado en laptop

Mi regla: ¿Sirviendo usuarios externos? vLLM. ¿Prototipando local? Ollama. Uso ambos.

Para más detalles, lee Ollama vs vLLM: Choosing the Right LLM Inference Engine.

Checklist de producción: 10 ítems antes de salir a producción

Marca cada ítem de este checklist antes de exponer tu despliegue de vLLM a tráfico real:

#ÍtemVerificación
1Nodos GPU etiquetados con nvidia.com/gpu.present=truekubectl get nodes -l nvidia.com/gpu.present=true
2Pesos del modelo pre-descargados a un PVC localkubectl get pvc -n llm-serving + verificar mount
3Resource limits coinciden con --tensor-parallel-sizenvidia.com/gpu == --tensor-parallel-size
4Liveness y readiness probes configuradoskubectl describe pod muestra ambos probes
5Graceful shutdown con hook preStop + período de gracia 60skubectl get pod -o yaml | grep preStop
6Cuantización habilitada si el modelo excede la VRAM de una sola GPUVerificar bandera --quantization en el manifiesto
7Métricas personalizadas de HPA conectadas a Prometheus Adapterkubectl get hpa muestra valor TARGET
8Anotaciones de scraping de Prometheus en el template del Podprometheus.io/scrape: "true" presente
9Timeouts de proxy de NGINX extendidos a 3600skubectl get ingress -o yaml | grep timeout
10Script de warm-up ejecutado antes del tráficoPrimeras 5–10 requests excluidas de SLIs

Imprime este checklist. Marca cada casilla. Solo entonces enruta tráfico de producción. El ítem #3, discrepancia de tensor parallelism, es la causa más común de fallos multi-GPU que veo.

Solución de problemas comunes de vLLM

Esta tabla mapea síntomas comunes directamente a causas raíz y soluciones. Estos son los fallos que más encuentro en despliegues de vLLM production.

Error / SíntomaCausa raízSolución
CUDA out of memory--gpu-memory-utilization muy alto o batch size muy grandeReducir a 0.85, bajar --max-num-seqs, o activar cuantización
NCCL error durante arranqueDiscrepancia de --tensor-parallel-size con el conteo de GPUsAsegurar que nvidia.com/gpu sea igual a --tensor-parallel-size
Descarga de modelo se cuelga en arranqueRate limit de HuggingFace o sin acceso a internetPre-descargar a PVC, configurar HF_HUB_OFFLINE=1
Primera request muy lentaCompilación JIT de kernels CUDAEjecutar requests de warm-up antes del tráfico de producción
TTFT alto, GPU util bajaBatch size muy pequeñoIncrementar --max-num-seqs o la tasa de requests
TPOT alto, GPU util altaKV cache lleno o modelo muy grande para la GPUReducir --max-model-len, activar AWQ/GPTQ, o agregar GPUs
HPA no escalaPrometheus Adapter mal configuradoVerificar que el nombre de la métrica coincida con la regla del adapter; revisar kubectl describe hpa
Ingress 504 Gateway TimeoutTimeout de proxy NGINX muy bajoConfigurar proxy-read-timeout y proxy-send-timeout a 3600s
Pod atascado en TerminatingSin handler de graceful shutdownAgregar hook preStop sleep y terminationGracePeriodSeconds: 60
Fallo de kernel FP8 en H100Discrepancia de versión CUDAActualizar a CUDA 12.4+; verificar vLLM 0.8.4+

Modo debug: Activa VLLM_LOGGING_LEVEL=DEBUG y NCCL_DEBUG=INFO para logs detallados de arranque. Para problemas de topología NCCL, agrega NCCL_DEBUG_SUBSYS=GRAPH.

Continúa en Parte 6: Conclusión y FAQ para la conclusión y preguntas frecuentes.

# Vllm # Kubernetes # IA # Gpu # Llm # produccion