
Ich habe den folgenden Befehl, um die Website zu kopieren,
beim Versuch, auf sun.com zuzugreifen, kam es zu einer Zeitüberschreitung der Verbindung.
Ich möchte, dass wget sun.com ausschließt, damit wget mit dem nächsten Schritt fortfahren kann.
Vorhandenes Problem
$ wget --recursive --page-requisites --adjust-extension --span-hosts --convert-links --restrict-file-names=windows http://pt.jikos.cz/garfield/
.
.
2021-08-09 03:28:28 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
2021-08-09 03:28:30 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
.
Location: https : //packages. debian. org /robots.txt [following]
--2021-08-09 03:28:33-- https : //packages. debian. org /robots.txt
Connecting to packages.debian.org (packages.debian.org)|128.0.10.50|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 24 [text/plain]
Saving to: ‘packages.debian.org/robots.txt’
packages.debian.org 100%[===================>] 24 --.-KB/s in 0s
2021-08-09 03:28:34 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
Loading robots.txt; please ignore errors.
--2021-08-09 03:28:34-- http ://wwws. sun. com/ robots.txt
Resolving wwws.sun.com (wwws.sun.com)... 137.254.16.75
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:28:56-- (try: 2) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:29:19-- (try: 3) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:29:43-- (try: 4) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:30:08-- (try: 5) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:30:34-- (try: 6) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:31:01-- (try: 7) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
Es wird erwartet, dass $wget die gesamte Website ohne Timeouts speichert. Wenn Timeouts auftreten, überspringt wget die Timeout-Verbindungen.
Antwort1
Bitte lesen Sie das ausführliche Handbuch zu den „Risiken“ der Verwendung der Option --span-hosts
( -H
) und wie Sie diese durch das Hinzufügen von Einschränkungen begrenzen können:
https://www.gnu.org/software/wget/manual/wget.html#Spanning-Hosts
Die Option
--span-hosts
„oder“-H
aktiviert die Host-Spanning und ermöglicht so die rekursive Ausführung von Wget, jeden Host zu besuchen, auf den durch einen Link verwiesen wird.Wenn keine ausreichenden Kriterien zur Begrenzung der Rekursion angewendet werden, werden diese fremden Hosts normalerweise mit noch mehr Hosts verknüpft, und so weiter.bis Wget am Ende viel mehr Daten aufsaugt, als Sie beabsichtigt haben.
...
Beschränken Sie das Spanning auf bestimmte Domänen
-D
Mit dieser-D
Option können Sie die Domänen angeben, denen gefolgt werden soll. Dadurch wird die Rekursion nur auf die Hosts beschränkt, die zu diesen Domänen gehören.
...
Beschränken Sie den Download auf bestimmte Domänen
--exclude-domains
Wenn es Domänen gibt, die Sie speziell ausschließen möchten, können Sie dies mit tun--exclude-domains
, das die gleichen Argumente wie akzeptiert-D
, aber alle aufgelisteten Domänen ausschließt.