Necesita ayuda para analizar las estadísticas de caída de paquetes informadas por ethtool (EL7/EL8)

Necesita ayuda para analizar las estadísticas de caída de paquetes informadas por ethtool (EL7/EL8)

He estado tratando de leer los detalles de las caídas tal como las informan varias herramientas (y en varios niveles) del sistema operativo. Hasta ahora, la mayor parte de la información que he podido desenterrar buscando en Google me parece más bien "ondulada a mano".

Primero, permítanme decirles que el host de ejemplo que estoy viendo muestra CERO caídas /proc/net/softnet_stat. Esto me indica que los buffers de anillo de NIC probablemente tengan el tamaño adecuado. Ahora, hacia ethtool...

Así es como se ve la cola múltiple de NIC:

# ethtool -l em1
Channel parameters for em1:
Pre-set maximums:
RX:     16
TX:     16
Other:      n/a
Combined:   n/a
Current hardware settings:
RX:     16
TX:     16
Other:      n/a
Combined:   n/a

Ahora, así es como se ven los rx drop para esa misma interfaz:

# ethtool -S em1 | grep rx.*dropped:
     rx_dropped: 1742
     rx0_dropped: 0
     rx1_dropped: 0
     rx2_dropped: 0
     rx3_dropped: 0
     rx4_dropped: 0
     rx5_dropped: 0
     rx6_dropped: 0
     rx7_dropped: 0
     rx8_dropped: 0
     rx9_dropped: 0
     rx10_dropped: 0
     rx11_dropped: 0
     rx12_dropped: 0
     rx13_dropped: 0
     rx14_dropped: 0
     rx15_dropped: 0

Mi suposición aquíes que las 16 colas individuales aquí se relacionan con la cola múltiple del búfer de anillo de NIC. Todos los ceros aquí parecen estar de acuerdo con lo que veo en softnet_stat. Además, supongo que cualquier caída contada softnet_statse reflejaría en este ethtoolresultado, si estuvieran ocurriendo (lo cual no ocurre actualmente).

Eso deja una especie de 'rx_dropped'campo vago, que en realidad se está incrementando. Entonces, mi suposición sobre esto es que NO está relacionado con el búfer de anillo de NIC, sino que es un contador de caídas de protocolo superior. De hecho, este recuento se refleja en las ip -sestadísticas de la interfaz:

# ip -s link show dev em1
2: em1: <BROADCAST,MULTICAST,SLAVE,UP,LOWER_UP> mtu 9000 qdisc mq master bond0 state UP mode DEFAULT group default qlen 1000
    link/ether 94:18:82:70:2e:42 brd ff:ff:ff:ff:ff:ff
    RX:       bytes      packets errors dropped  missed   mcast
    219512805660516 147616023841      0    1742       0 5624266
    TX:       bytes      packets errors dropped carrier collsns
    649765242476657 450168813646      0       0       0       0

Creo que estas caídas podrían ser el resultado de una serie de problemas relacionados con el protocolo, como paquetes con formato incorrecto, puertos defectuosos, buffers de aplicaciones congestionados, etc., etc.

¿Parece esto un análisis razonable que explica las estadísticas de caída "diferentes" informadas por ethtool -S?

información relacionada