%20con%20OSX%3F.png)
Estoy intentando "obtener" datos de un sitio web.
¿Hay alguna manera de simplemente apuntar un programa a una URL y captura todo en ese dominio? ¿Cómo debo hacer esto en OSX 10.5? Si realmente es necesario, puedo usar Ubuntu o Windows Box como último recurso.
Respuesta1
Puedes usar el wget
comando que esdisponible para descargar para Mac OS Xincluido con la mayoría de las distribuciones de Linux para descargar el contenido completo de un sitio web, imágenes, CSS, JavaScript, videos, archivos Flash y todo.
Una vez que lo tengas, abre una terminal. Probablemente quieras llamarlo así:
wget -r -l0 -k http://www.example.com/
eso se descargarátododesde http://www.example.com/
accesible mediante enlaces. La -r
opción activa la descarga recursiva, por lo que descarga algo más que la página de inicio. La -l
opción establece en cuántas páginas de profundidad buscará enlaces y descargará, configurando 0
como lo hice yo lo configurará para llegar lo más lejos posible. Tenga en cuenta que si el sitio web utiliza generación dinámica de páginas, se podrían descargar muchas, ya que podría haber muchas URL que apunten al mismo contenido o a uno muy similar. El -k
comando es opcional y convertirá wget
todos los enlaces, etiquetas de imágenes, etc. a la ubicación correcta en su máquina local para que pueda verlos con un navegador web en su computadora y funcionará correctamente.
Tenga en cuenta que sólo descargará archivos dewww.ejemplo.com, ningún otro dominio. Si necesita que vaya a otros dominios, use el -H
interruptor para activarlo y luego use el -D
interruptor de opción para definir los otros dominios desde los cuales descargar (por ejemplo -D comments.example.com,beta.example.com
). Tenga cuidado, si deja el -D
interruptor apagado y lo configura -l
en 0
/infinite, ¡podría intentar descargar toda la World Wide Web!
Otro cambio que podría ser útil es el -N
cambio, que establecerá la marca de tiempo en el archivo local a la hora proporcionada por el Last-Modified
encabezado HTTP en el servidor, y no descargará archivos que no hayan sido modificados en descargas posteriores.
Para más información consultarla wget
documentación.