¿Cómo exportar todos los hipervínculos en una página web?

¿Cómo exportar todos los hipervínculos en una página web?

Necesito una solución para exportar todos los hipervínculos en una página web (en una página web, no desde el sitio web completo) y una forma de especificar los enlaces que quiero exportar, por ejemplo, solo los hipervínculos que comienzan conhttps://superusuario.com/questions/excluyendo todo lo demás.
Se prefiere exportar como archivo de texto y los resultados deben mostrarse uno debajo del otro, una URL por línea:

https://superuser.com/questions/1  
https://superuser.com/questions/2  
https://superuser.com/questions/3
[...]

Respuesta1

Si está ejecutando un sistema Linux o Unix (como FreeBSD o macOS), puede abrir una sesión de terminal y ejecutar este comando:

wget -O - http://ejemplo.com/página web.htm | \
sed 's/href=/\nhref=/g' | \
grep href=\"http://specify.com | \
sed 's/.*href="//g;s/".*//g' > salida.txt

En casos habituales, puede haber varias <a href>etiquetas en una línea, por lo que debe cortarlas primero (la primera sedagrega nuevas líneas antes de cada palabra clave hrefpara asegurarse de que no haya más de una en una sola línea).
Para extraer enlaces de varias páginas similares, por ejemplo, todas las preguntas de las primeras 10 páginas de este sitio, utilice un forbucle.

para i en $(seq 1 10); hacer
wget -O - http://superuser.com/questions?page=$i | \
sed 's/href=/\nhref=/g' | \
grep -E 'href="http://superuser.com/questions/[0-9]+' | \
sed 's/.*href="//g;s/".*//g' >> salida.txt
hecho

Recuerde reemplazar http://example.com/webpage.htmcon la URL de su página real y http://specify.comcon la cadena anterior que desea especificar.
Puede especificar no solo una cadena anterior para exportar la URL, sino también un patrón de expresión regular si usa egrepo grep -Een el comando proporcionado anteriormente.
Si está ejecutando Windows, considere aprovecharCygwin. No olvide seleccionar los paquetes Wget, grepy sed.

Respuesta2

Si estás de acuerdo con usar Firefox, puedes usar el complementoEnlaces rápidos Plus

  1. Mantenga presionado el botón derecho del mouse y arrastre una selección alrededor de los enlaces.

  2. Cuando estén resaltados, mantenga presionado Control mientras suelta el botón derecho del mouse.

información relacionada