![wget не удалось: время ожидания соединения истекло](https://rvso.com/image/769294/wget%20%D0%BD%D0%B5%20%D1%83%D0%B4%D0%B0%D0%BB%D0%BE%D1%81%D1%8C%3A%20%D0%B2%D1%80%D0%B5%D0%BC%D1%8F%20%D0%BE%D0%B6%D0%B8%D0%B4%D0%B0%D0%BD%D0%B8%D1%8F%20%D1%81%D0%BE%D0%B5%D0%B4%D0%B8%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B8%D1%81%D1%82%D0%B5%D0%BA%D0%BB%D0%BE.png)
У меня есть следующая команда для копирования веб-сайта:
при попытке зайти на sun.com произошло отключение соединения.
Я бы хотел, чтобы wget исключил sun.com, чтобы wget мог перейти к следующему этапу.
Существующая проблема
$ wget --recursive --page-requisites --adjust-extension --span-hosts --convert-links --restrict-file-names=windows http://pt.jikos.cz/garfield/
.
.
2021-08-09 03:28:28 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
2021-08-09 03:28:30 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
.
Location: https : //packages. debian. org /robots.txt [following]
--2021-08-09 03:28:33-- https : //packages. debian. org /robots.txt
Connecting to packages.debian.org (packages.debian.org)|128.0.10.50|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 24 [text/plain]
Saving to: ‘packages.debian.org/robots.txt’
packages.debian.org 100%[===================>] 24 --.-KB/s in 0s
2021-08-09 03:28:34 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
Loading robots.txt; please ignore errors.
--2021-08-09 03:28:34-- http ://wwws. sun. com/ robots.txt
Resolving wwws.sun.com (wwws.sun.com)... 137.254.16.75
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:28:56-- (try: 2) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:29:19-- (try: 3) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:29:43-- (try: 4) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:30:08-- (try: 5) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:30:34-- (try: 6) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:31:01-- (try: 7) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
Ожидается, что $wget сохранит весь веб-сайт без тайм-аутов. Если есть тайм-ауты, то wget пропустит соединения с тайм-аутами.
решение1
Пожалуйста, прочтите подробное руководство о «рисках» использования опции --span-hosts
( -H
) и о том, как их ограничить, добавив ограничения:
https://www.gnu.org/software/wget/manual/wget.html#Spanning-Hosts
Параметр
--span-hosts
or-H
включает охват хостов, что позволяет рекурсивному запуску Wget посещать любой хост, на который ссылается ссылка.Если не применяются достаточные критерии ограничения рекурсии, эти внешние хосты, как правило, будут ссылаться на еще большее количество хостов и т. д.пока Wget не начнет поглощать гораздо больше данных, чем вы предполагали.
...
Ограничить охват определенными доменами
-D
Эта-D
опция позволяет указать домены, которые будут отслеживаться, тем самым ограничивая рекурсию только хостами, принадлежащими этим доменам.
...
Запретить загрузку с определенных доменов
--exclude-domains
Если есть домены, которые вы хотите исключить, вы можете сделать это с помощью--exclude-domains
, который принимает тот же тип аргументов, что и-D
, но исключит все перечисленные домены.