hacer que wget haga referencia a una copia local sin descargar archivos de forma redundante

hacer que wget haga referencia a una copia local sin descargar archivos de forma redundante

Quiero archivar un tablero de mensajes, lo hago usando wget con los parámetros --page-requisites:, --span-hostsy .--convert-links--no-clobber

El problema es que el uso --convert-linkslo desactiva --no-clobber. Para cada página de hilo, wget vuelve a descargar máscaras, scripts e íconos del sitio (con el fin de mantenerlos actualizados).

¿Hay alguna manera de evitar que wget descargue archivos que ya existen localmente, refiera enlaces a archivos a sus copias locales y solo descargue archivos que aún no están en el sistema de archivos?

Respuesta1

Creo que si incluye el interruptor, -Nobligará wgeta utilizar marcas de tiempo.

   -N
   --timestamping
       Turn on time-stamping.

Con este cambio, wgetsolo descargará archivos que aún no tenga localmente.

Ejemplo

Descargue donde el archivo robots.txtno exista localmente.

$ wget -N http://google.com/robots.txt
--2014-06-15 21:18:16--  http://google.com/robots.txt
Resolving google.com (google.com)... 173.194.41.9, 173.194.41.14, 173.194.41.0, ...
Connecting to google.com (google.com)|173.194.41.9|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://www.google.com/robots.txt [following]
--2014-06-15 21:18:17--  http://www.google.com/robots.txt
Resolving www.google.com (www.google.com)... 173.194.46.83, 173.194.46.84, 173.194.46.80, ...
Connecting to www.google.com (www.google.com)|173.194.46.83|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘robots.txt’

    [ <=>                                                                                                                                 ] 7,608       --.-K/s   in 0s      

2014-06-15 21:18:17 (359 MB/s) - ‘robots.txt’ saved [7608]

Probándolo por segunda vez con el archivo robots.txtlocalmente:

$ wget -N http://google.com/robots.txt
--2014-06-15 21:18:19--  http://google.com/robots.txt
Resolving google.com (google.com)... 173.194.41.8, 173.194.41.9, 173.194.41.14, ...
Connecting to google.com (google.com)|173.194.41.8|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://www.google.com/robots.txt [following]
--2014-06-15 21:18:19--  http://www.google.com/robots.txt
Resolving www.google.com (www.google.com)... 173.194.46.82, 173.194.46.83, 173.194.46.84, ...
Connecting to www.google.com (www.google.com)|173.194.46.82|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Server file no newer than local file ‘robots.txt’ -- not retrieving.

Observe que la segunda vez wgetno recuperó el archivo nuevamente.

información relacionada