Se hicieron algunos cambios de acuerdo a lo mencionado en la solución en GDS (la suben ustedes para ese foro) y se configuraron algunos monitoreos para llevar el control.
Hola Emilio, dejo lo tratado en GDS:
El problema principal era la pantalla en blanco al iniciar sudocu y problemas de red:
Se observó logs en modo debug (genera alto tráfico, puede acarrear problemas de conexión y producir un comportamiento inestable), mostraba errores de conexión a nuxeo y a cache redis de sudocu.
Recomendaciones brindadas:
En servidores de producción se recomienda setear en modo ERROR en los distintos servicios (el LOG LEVEL se modifica en los archivos .ENV y se debe hacer deploy nuevamente)
Monitorear el uso de recursos y red, por ejemplo, con docker stats -a (indica los porcentajes de uso y límites).
Revisar el uso de recursos del servidor nuxeo y postgresql para descartar que sea causante del problema.
Se recomienda agregar el parámetro NODE_OPTIONS: “–max-old-space-size=…” en servicios api server y api-worker ya que en caso de tratar con documentos de gran tamaño posiblemente sea necesario ajustarlo (Entrada en el foro donde tratan este tema: Stress con documentos grandes )
Sobre la cache, el mensaje en log “Error: getaddrinfo ENOTFOUND cache” se muestra cuando el servicio cache inicia después de api-server y worker, pasos para resolverlo:
eliminar los servicios api-server y api-worker: docker service rm sudocu_api-server sudocu_api-worker
luego hacer nuevamente el deploy de sudocu.
Ante la consulta en GDS para evitar el redeploy: "Utilizando
depends_on:
cache
un poco mas de margen?
O usando un healthcheck? "
No me permite contestar ya que el ticket está cerrado, pero podrías probar en algún ambiente de pruebas modificar la configuración “restart_policy” del servicio api-server en sudocu.yml, por ejemplo en un ambiente de testeo aumenté la cantidad de intentos a 10, es bastante pero le da margen a cache para que inicie. Demora mas en iniciar pero se evita intervenir manualmente para realizar el redeploy: restart_policy: condition: any delay: 10s max_attempts: 10 window: 120s