Extraer enlaces de un rango numérico de páginas web

Question 1

Si desea utilizar código para hacer esto, puede hacerlo en Perl usando los módulos LWP::Simple o Mechanize.

Lo siguiente podría tener lo que buscasEncuentre todos los enlaces de una página web usando el módulo LWP::Simple

Esto supone que se siente cómodo utilizando una solución de línea de comandos utilizando Perl. Esto funciona igual en las plataformas Windows y Linux. No sería necesario modificar mucho para tomar las URL como parámetros de la línea de comando para analizar.

Answer

Si desea utilizar código para hacer esto, puede hacerlo en Perl usando los módulos LWP::Simple o Mechanize.

Lo siguiente podría tener lo que buscasEncuentre todos los enlaces de una página web usando el módulo LWP::Simple

Esto supone que se siente cómodo utilizando una solución de línea de comandos utilizando Perl. Esto funciona igual en las plataformas Windows y Linux. No sería necesario modificar mucho para tomar las URL como parámetros de la línea de comando para analizar.

Question 2

Sí, es un buen script bash. Esto utiliza el navegador Lynx para extraer las URL de las páginas y volcarlas en un archivo de texto:

#!/bin/bash
#
# Usage:
#
#   linkextract <start> <end> <pad> <url>
#
#   <start> is the first number in the filename range. Must be an integer
#   <stop> is the last number in the filename range. Must be an integer
#   <pad> is the number of digits the number in the filename is zero-padded to. 
#   <url> is the URL. Insert "<num>" where you want the number to appear. You'll
#         need to enclose the entire argument in quotes

for (( i=${1} ; i<=${2} ; i++ )); do {
    num=$(printf "%04d" ${i})
    url=$(echo ${4} | sed "s/<num>/${num}/")
    lynx -dump -listonly "${url}" | sed -r -n "/^ +[0-9]/s/^ +[0-9]+\. //p"
}; done

Necesitará instalar el navegador lynx, que está disponible en Debian como el paquete 'lynx'. El script imprime las URL extraídas en la salida estándar. Entonces, para el ejemplo de su pregunta, haría (suponiendo que guarde el script en un archivo llamado linkextract):

$ linkextract 1 329 3 "http://example.com/page<num>.html"

Answer

Sí, es un buen script bash. Esto utiliza el navegador Lynx para extraer las URL de las páginas y volcarlas en un archivo de texto:

#!/bin/bash
#
# Usage:
#
#   linkextract <start> <end> <pad> <url>
#
#   <start> is the first number in the filename range. Must be an integer
#   <stop> is the last number in the filename range. Must be an integer
#   <pad> is the number of digits the number in the filename is zero-padded to. 
#   <url> is the URL. Insert "<num>" where you want the number to appear. You'll
#         need to enclose the entire argument in quotes

for (( i=${1} ; i<=${2} ; i++ )); do {
    num=$(printf "%04d" ${i})
    url=$(echo ${4} | sed "s/<num>/${num}/")
    lynx -dump -listonly "${url}" | sed -r -n "/^ +[0-9]/s/^ +[0-9]+\. //p"
}; done

Necesitará instalar el navegador lynx, que está disponible en Debian como el paquete 'lynx'. El script imprime las URL extraídas en la salida estándar. Entonces, para el ejemplo de su pregunta, haría (suponiendo que guarde el script en un archivo llamado linkextract):

$ linkextract 1 329 3 "http://example.com/page<num>.html"

Question 3

Puedes usar elRastreador del visualizador de sitiospara este trabajo. Descárguelo e instálelo, luego haga clicNuevo proyecto, escriba la URL de su sitio web, haga clic en Aceptar y luegoIniciar rastreobotón de herramienta.

Una vez completado el rastreo, haga doble clicTodos los enlacesinforme de laInformespestaña. Se le proporcionarán todos los enlaces que están presentes en el sitio web, así como otra información: URL de enlace de origen/destino, tipo de contenido (HTML, imagen, pdf, css, etc.), respuesta, etc. Seleccione toda la tabla (menú contextual o Ctrl+A), luego haga clic enCopiar filas con encabezadoselemento del menú contextual. Después de eso, puedes pegar los datos en una hoja de Excel o en un documento de texto simple:

extraer todos los enlaces del sitio web

El programa tiene un período de prueba de 30 días, pero tiene todas las funciones, por lo que puedes usarlo gratis durante 1 mes.

Answer

Puedes usar elRastreador del visualizador de sitiospara este trabajo. Descárguelo e instálelo, luego haga clicNuevo proyecto, escriba la URL de su sitio web, haga clic en Aceptar y luegoIniciar rastreobotón de herramienta.

Una vez completado el rastreo, haga doble clicTodos los enlacesinforme de laInformespestaña. Se le proporcionarán todos los enlaces que están presentes en el sitio web, así como otra información: URL de enlace de origen/destino, tipo de contenido (HTML, imagen, pdf, css, etc.), respuesta, etc. Seleccione toda la tabla (menú contextual o Ctrl+A), luego haga clic enCopiar filas con encabezadoselemento del menú contextual. Después de eso, puedes pegar los datos en una hoja de Excel o en un documento de texto simple:

extraer todos los enlaces del sitio web

El programa tiene un período de prueba de 30 días, pero tiene todas las funciones, por lo que puedes usarlo gratis durante 1 mes.

Extraer enlaces de un rango numérico de páginas web

Respuesta1

Respuesta2

Respuesta3

información relacionada