Manejo de archivos obsoletos de NFS después de reiniciar el servidor NFS: ¿por qué sucede esto y cómo lo maneja la industria?

Question 1

Está utilizando NFS versión 3, que necesita varios servicios auxiliares además del servicio NFS principal en el puerto 2049. Uno de ellos es rpc.statd, que tiene un papel clave en la detección de reinicios y la recuperación/limpieza de bloqueos de NFS después de un reinicio.

Estos servicios auxiliares pueden estar ubicados en puertos aleatorios y se descubren contactando al asignador de puertos RPC (generalmente un proceso denominado rpcbinden Linux modernos). En las redes modernas con firewalls, este comportamiento puede dificultar las cosas: aunque puede encontrarlos en puertos de aspecto determinista después de un reinicio, es posible que se asignen a números de puerto bastante diferentes si reinicia los servicios NFS.

Afortunadamente, en muchos sistemas modernos tipo Unix, puedes bloquear los números de puerto del administrador de bloqueo NFS (históricamente rpc.lockd, hoy en día generalmente implementado en el kernel) rpc.statdy rpc.mountd. Esto es esencial si desea pasar NFSv3 a través de firewalls con algún tipo de confiabilidad.

Para RHEL y distribuciones relacionadas, puede bloquear los números de puerto auxiliares de NFS agregando estas líneas en /etc/sysconfig/network:

LOCKD_TCPPORT=4045
LOCKD_UDPPORT=4045
STATD_PORT=4046
MOUNTD_PORT=4047

Para Debian y distribuciones relacionadas, puede agregar esta línea a /etc/modprobe.d/nfs.conf:

options lockd nlm_udpport=4045 nlm_tcpport=4045

... y esta línea en /etc/default/nfs-common:

STATDOPTS="-p 4046"

... y esta línea en /etc/default/nfs-kernel-server:

RPCMOUNTDOPTS="-p 4047" # you may want to add a --manage-gids option here

(Puede usar números de puerto diferentes si lo desea, pero 4045 es el puerto predeterminado para el administrador de bloqueo NFSv3 en Solaris y está codificado para el mismo en HP-UX 11.31).

Pero hay otro problema en el protocolo NFSv3. Aunque puede montar con éxito un recurso compartido NFS utilizando solo direcciones IP, el protocolo de bloqueo NFSv3 utiliza internamente nombres de host. Tanto el cliente como el servidor deben conocerse por los nombres correctos; de lo contrario, el bloqueo del archivo NFS y la recuperación del bloqueo después de un reinicio no funcionarán. Y el "nombre correcto" para cada sistema es el nombre informado por uname -n.

Entonces, si uname -nregresa server.exampleen el servidor y respectivamente client.exampleen el cliente, entonces debe asegurarse de que esos nombres exactos se resuelvan en las direcciones IP que los hosts deben usar para NFS. En otras palabras, el servidor debe poder contactar al cliente rpc.statdusando el nombre client.exampley viceversa.

Si no lo hace, puede parecer que todo funciona bien al principio... pero cuando cualquiera de los extremos reinicia, es posible que obtenga esos Stale file handleerrores.

Answer