![wget falló: se agotó el tiempo de conexión](https://rvso.com/image/769294/wget%20fall%C3%B3%3A%20se%20agot%C3%B3%20el%20tiempo%20de%20conexi%C3%B3n.png)
Tengo el siguiente comando para copiar el sitio web,
Cuando intentó acceder a sun.com, se agotó el tiempo de conexión.
Me gustaría que wget excluya sun.com para que wget pase a lo siguiente.
Problema existente
$ wget --recursive --page-requisites --adjust-extension --span-hosts --convert-links --restrict-file-names=windows http://pt.jikos.cz/garfield/
.
.
2021-08-09 03:28:28 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
2021-08-09 03:28:30 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
.
Location: https : //packages. debian. org /robots.txt [following]
--2021-08-09 03:28:33-- https : //packages. debian. org /robots.txt
Connecting to packages.debian.org (packages.debian.org)|128.0.10.50|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 24 [text/plain]
Saving to: ‘packages.debian.org/robots.txt’
packages.debian.org 100%[===================>] 24 --.-KB/s in 0s
2021-08-09 03:28:34 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
Loading robots.txt; please ignore errors.
--2021-08-09 03:28:34-- http ://wwws. sun. com/ robots.txt
Resolving wwws.sun.com (wwws.sun.com)... 137.254.16.75
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:28:56-- (try: 2) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:29:19-- (try: 3) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:29:43-- (try: 4) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:30:08-- (try: 5) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:30:34-- (try: 6) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:31:01-- (try: 7) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
Se esperaba que $wget guardara todo el sitio web sin tiempos de espera; si hay tiempos de espera, wget omitiría las conexiones con tiempo de espera.
Respuesta1
Lea el excelente manual sobre los "riesgos" de usar la opción --span-hosts
( -H
) y cómo limitarlos agregando restricciones:
https://www.gnu.org/software/wget/manual/wget.html#Spanning-Hosts
La opción
--span-hosts
o-H
activa la expansión de hosts, lo que permite que la ejecución recursiva de Wget visite cualquier host al que haga referencia un enlace.A menos que se apliquen suficientes criterios de limitación de recursividad, estos hosts extranjeros normalmente se vincularán a aún más hosts, y así sucesivamente.hasta que Wget termina absorbiendo muchos más datos de los que pretendía.
...
Limitar la extensión a ciertos dominios
-D
La-D
opción le permite especificar los dominios que se seguirán, limitando así la recursividad solo a los hosts que pertenecen a estos dominios.
...
Mantener la descarga fuera de ciertos dominios
--exclude-domains
Si hay dominios que desea excluir específicamente, puede hacerlo con--exclude-domains
, que acepta el mismo tipo de argumentos que-D
, pero excluirá todos los dominios enumerados.