Me hice cargo de las operaciones tecnológicas de una pequeña empresa. Sin embargo, el líder anterior tomó la decisión errónea de almacenar cientos de GB de imágenes, a pesar de que nuestro sitio web solo utiliza alrededor de 5 GB de esas imágenes. Básicamente, no existen scripts de limpieza. Ahora tengo la tarea de optimizar este desorden y no estoy seguro de por dónde empezar. ¿Hay alguna forma de obtener una lista de la última vez que se accedió a cada archivo de imagen a través de la web, de modo que pueda hacer algo como "SI NO SE ABRE EN LOS ÚLTIMOS 365 DÍAS, ENTONCES MOVER A LA UNIDAD DE RESPALDO Y ELIMINAR DEL SERVIDOR PRINCIPAL"?
Respuesta1
Se olvidó de indicar el entorno en el que se encuentra (sistema operativo, servidor web, etc.), así que asumo que es Linux.
Si no ha montado su directorio de datos en el servidor con noatime
, puede usarlo find
para buscar archivos a los que no se accedió durante 365 días:
find /var/www/images -iname "*.jpg" -atime +365 -type f
Si usó noatime
, esto no será posible (y si usó relatime
, es atime
posible que tenga un descuento de 24 horas).
Sin embargo, este no es un buen enfoque, ya que podría encontrar enlaces inactivos en sus archivos HTML y alguien necesitará este recurso dentro de 5 días...
Mejor enfoque: analice su árbol web, enumere todos los archivos a los que se hace referencia allí (asegúrese de desactivar la indexación automática de sus servidores web...) y archive todo lo demás. De esta manera puedes asegurarte de que todo lo que aparece en tus archivos HTML seguirá estando disponible.
Tenga cuidado, existe la posibilidad de que tenga islas aisladas de archivos HMTL no vinculados en su árbol habitual a los que las personas acceden a través de un enlace directo; piense en ello cuando cree su lista. Por supuesto, lo mismo podría ser cierto para los archivos de imagen, pero en realidad solo puede capturarlos mediante el análisis del archivo de registro o el find
método.
Respuesta2
Dependiendo de qué tan atrás se encuentren sus registros web, puede analizar todas las entradas de archivos del directorio en cuestión y luego eliminar todo lo que no se encuentre.