Ahora estamos desplegando una nueva instancia en la versión 1.5.3 y volvemos a configurar todo de la misma manera.
Después de crear el archivo daemon.json en /etc/docker y reiniciar el servicio de docker, toda la solución de EEI comienza a tener un comportamiento errático hasta que se cuelga completamente, por lo que debemos volver a desplegar, pero el problema persiste.
Nos pudimos dar cuenta que si eliminamos el archivo daemon.json y reiniciamos el servicio de docker en todos los nodos del swarm. EEI vuelve a levantar y corre sin problemas.
¿Tienen idea por qué podría estar causando este problema?
Aun sigo con problemas con loki y no estamos pudiendo hacer que funcione. En otros dos ambientes donde tenemos un solo nodo (no swarm) funciona sin problemas tanto grafana como loki, pero en el ambiente productivo donde tenemos un cluster swarm tenemos varios problemas para hacerlo funcionar.
1- Uno de los errores que vemos es, al hacer un stack rm de loki aparece este mensaje
“failed to create service loki_grafana: Error response from daemon: network loki_loki not found”, podemos estar varios minutos intentando , en algunas ocasiones termina bien y en otras no queda otra opcion que reiniciar el servicio de docker
2- docker stack rm loki
Removing network loki_loki
Failed to remove network qfpoz0gcbrfc6ha7eagnhslyt: Error response from daemon: network qfpoz0gcbrfc6ha7eagnhslyt not foundFailed to remove some resources from stack: loki
3- Y otro de los errores se manifiesta al intentar agregar a loki como datasource dentro de grafana, con el mensaje “Loki: Cannot connect to Loki. 502. [object Object]”
4- En el log de loki_grafana aparece tanto errores de proxy error, como de timeout "
Que pruebas basicas podriamos hacer para verificar que grafana puede acceder al servicio de loki? prueba de conectividad entre ambos contenedores ya lo hemos hecho , y existe ping entre ambos porque estan en la misma red definida en el yaml
Es probable que la configuración en docker swarm sea diferente y la debamos modificar de como viene por default en el proyecto los archivos loki.yml, u otro mas?
en el punto 1) te muestra el error al intentar levantar el servicio luego de un rm? puede ocurrir el error “failed to create service nombre_servicio Error response from daemon: network nombre_red not found” cuando se intenta crear el servicio inmediatamente luego de haberlo eliminado, si haces un rm de algún stack intenta esperar unos cuantos segundos antes de levantarlo nuevamente (20, 30 o mas segundos por ejemplo). Muchos solucionan este problema haciendo un restart del servicio de docker como lo hiciste vos.
Los demás errores planteados en los puntos siguientes puede ser que provengan de la situación generada en el punto 1
en docker swarm se puede chequear que nodos estan conectados utilizando el comando
docker network inspect nombre_red
en la sección “containers” muestra información de su nombre, ip, etc
Despues de mucho buscar entre logs y configuraciones hice la prueba que me llevo a encontrar el problema. Ingrese dentro del contenedor de grafana (ya que grafana no llegaba a loki) e hice un ping al dominio que tenia definido en el daemon.json y note que no resolvia. Por lo cual encontré la forma de internamente en el yml de loki definir eso agregando en el hosts del contenedor en forma persistente el host interno que debia resolver para llegar al dominio donde declaré loki.
Tanto en el bloque correspondiente a loki como a grafana dentro de loki.yml agregue esto
extra_hosts:
- “portal.unlc.edu.ar:192.168.0.103”
Con esto ya pude finalmente agregar a loki como datasource. Algo debo tener mal en algun lado para que no llegue directamente, ya que en el hosts del servidor linux tengo ese mismo dato declarado.
bueno si a alguien le sirve la solución me alegro!