Tiempo de sincronización de Chrony ignorando maxpoll

Question

Esa es una salida saludable para los cronistas. Cuatro fuentes, todas accesibles recientemente, precisión en el rango inferior a 1 ms y retraso en decenas de milisegundos, y estás a 3 saltos (estrato) del reloj de referencia. Típico de servidores NTP de Internet.

Su resultado allí no lo consideraría procesable, por lo que no es algo sobre lo que alertar. Es posible que algún problema temporal ya no exista después de que se disparó la alerta, o que la verificación esté alertando incorrectamente sobre cosas.

La configuración poll/minpoll/maxpoll de chrony es log base 2, por lo que los valores típicos de 10 son 1024 segundos. Sí, es normal que las instancias crónicas saludables reduzcan los paquetes y terminen enviando solo unos pocos por hora. Es posible realizar un maxpoll mucho más largo, pero prácticamente nadie cambia el valor predeterminado.

No estoy familiarizado con checkmk. Afortunadamente, parece tener un núcleo de código abierto con el complemento crony. me voy dechrony.py etiquetado v2.2.0. Estas son las claves que extrae de chronyc trackingla salida.

Reference ID
System time
Stratum
Ref time (UTC)

Check utiliza la hora actual menos el tiempo de referencia analizado para crear un umbral para el "Tiempo desde la última sincronización" con umbrales aparentemente predeterminados de 1800 y 3600 segundos. Parece propenso a errores tener que analizar una hora formateada, pero al menos usan funciones de la biblioteca de Python.

Creo que esta parte de la alerta no tiene sentido y no es procesable. Si no se sincroniza, se devolverá el estrato de error número 16 y la verificación ya alerta sobre el estrato > 10. La verificación también alerta si no puede analizar una dirección IP a partir del ID de referencia. E incluso si chrony pierde todas las entradas, seguirá disciplinando el reloj en función de la deriva conocida.

Deshabilite la parte de retraso de esta verificación. O al menos configúrelo en un umbral mucho más alto, tal vez 1 o 2 días. No me importa que el último paquete NTP haya sido hace 30 minutos, pero 30 horas en un servidor siempre activo sin una medición de reloj de referencia podrían ser interesantes.

También diversifique sus fuentes para incluir aquellas que no sean de Internet. Si se ocupa del hardware, puede obtener dispositivos NTP, probablemente a partir de una señal satelital. O puede que ya haya un servidor NTP en la red local; en algunas nubes hay uno como parte de un servicio de metadatos.

Answer 1