Detectando 404 de alguna manera

Question

Qué tal si wget?

Tres ejemplos: uno para una página que no existe, otro para una página existente que no puedes descargar y uno que funciona.

obtenerhttps://askubuntu.com/testfor404

--2014-05-09 22:06:20--  https://askubuntu.com/testfor404
Resolving askubuntu.com (askubuntu.com)... 198.252.206.24
Connecting to askubuntu.com (askubuntu.com)|198.252.206.24|:80... connected.
HTTP request sent, awaiting response... 404 Not Found
2014-05-09 22:06:21 ERROR 404: Not Found.

obtenerhttps://askubuntu.com/reputation

--2014-05-09 22:07:11--  https://askubuntu.com/reputation
Resolving askubuntu.com (askubuntu.com)... 198.252.206.24
Connecting to askubuntu.com (askubuntu.com)|198.252.206.24|:80... connected.
HTTP request sent, awaiting response... 403 Forbidden
2014-05-09 22:07:11 ERROR 403: Forbidden.

obtenerhttp://askubuntu.com

--2014-05-09 22:07:36--  https://askubuntu.com/
Resolving askubuntu.com (askubuntu.com)... 198.252.206.24
Connecting to askubuntu.com (askubuntu.com)|198.252.206.24|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 69629 (68K) [text/html]
Saving to: ‘index.html’

100%[======================================>] 69.629       257KB/s   in 0,3s   

2014-05-09 22:07:36 (257 KB/s) - ‘index.html’ saved [69629/69629]

Ese comando podría ampliarse para mostrar "verdadero" o "falso" en caso de que el resultado muestre "ERROR 404: No encontrado".

La opción --delete-aftereliminará el index.html después de descargarlo. --spiderflag comprobará el encabezado/estado de la página sin descargarla.

Answer 1