Eu tenho o seguinte comando para copiar o site,
ao tentar acessar sun.com, a conexão expirou.
Gostaria que o wget excluísse sun.com para que o wget pudesse prosseguir para a próxima etapa.
Problema existente
$ wget --recursive --page-requisites --adjust-extension --span-hosts --convert-links --restrict-file-names=windows http://pt.jikos.cz/garfield/
.
.
2021-08-09 03:28:28 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
2021-08-09 03:28:30 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
.
Location: https : //packages. debian. org /robots.txt [following]
--2021-08-09 03:28:33-- https : //packages. debian. org /robots.txt
Connecting to packages.debian.org (packages.debian.org)|128.0.10.50|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 24 [text/plain]
Saving to: ‘packages.debian.org/robots.txt’
packages.debian.org 100%[===================>] 24 --.-KB/s in 0s
2021-08-09 03:28:34 (19.1 MB/s) - ‘packages.debian.org/robots.txt’ saved [24/24]
Loading robots.txt; please ignore errors.
--2021-08-09 03:28:34-- http ://wwws. sun. com/ robots.txt
Resolving wwws.sun.com (wwws.sun.com)... 137.254.16.75
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:28:56-- (try: 2) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:29:19-- (try: 3) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:29:43-- (try: 4) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:30:08-- (try: 5) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:30:34-- (try: 6) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
--2021-08-09 03:31:01-- (try: 7) http ://wwws. sun. com/ robots.txt
Connecting to wwws.sun.com (wwws.sun.com)|137.254.16.75|:80... failed: Connection timed out.
Retrying.
Esperava-se que $wget salvasse todo o site sem tempo limite; se houver tempo limite, o wget pularia as conexões de tempo limite.
Responder1
Por favor, leia o manual sobre os "riscos" de usar a opção --span-hosts
( -H
) e como limitá-los adicionando restrições:
https://www.gnu.org/software/wget/manual/wget.html#Spanning-Hosts
A opção
--span-hosts
ou-H
ativa a extensão de host, permitindo assim que a execução recursiva do Wget visite qualquer host referenciado por um link.A menos que critérios suficientes de limitação de recursão sejam aplicados, esses hosts estrangeiros normalmente se vincularão a ainda mais hosts, e assim por dianteaté que o Wget acabe sugando muito mais dados do que você pretendia.
...
Limitar a abrangência para determinados domínios
-D
A-D
opção permite especificar os domínios que serão seguidos, limitando assim a recursão apenas aos hosts que pertencem a esses domínios.
...
Mantenha o download fora de determinados domínios
--exclude-domains
Se houver domínios que você deseja excluir especificamente, você pode fazer isso com--exclude-domains
, que aceita o mesmo tipo de argumentos de-D
, mas excluirá todos os domínios listados.