Necesito una solución para exportar todos los hipervínculos en una página web (en una página web, no desde el sitio web completo) y una forma de especificar los enlaces que quiero exportar, por ejemplo, solo los hipervínculos que comienzan conhttps://superusuario.com/questions/excluyendo todo lo demás.
Se prefiere exportar como archivo de texto y los resultados deben mostrarse uno debajo del otro, una URL por línea:
https://superuser.com/questions/1
https://superuser.com/questions/2
https://superuser.com/questions/3
[...]
Respuesta1
Si está ejecutando un sistema Linux o Unix (como FreeBSD o macOS), puede abrir una sesión de terminal y ejecutar este comando:
wget -O - http://ejemplo.com/página web.htm | \ sed 's/href=/\nhref=/g' | \ grep href=\"http://specify.com | \ sed 's/.*href="//g;s/".*//g' > salida.txt
En casos habituales, puede haber varias <a href>
etiquetas en una línea, por lo que debe cortarlas primero (la primera sed
agrega nuevas líneas antes de cada palabra clave href
para asegurarse de que no haya más de una en una sola línea).
Para extraer enlaces de varias páginas similares, por ejemplo, todas las preguntas de las primeras 10 páginas de este sitio, utilice un for
bucle.
para i en $(seq 1 10); hacer wget -O - http://superuser.com/questions?page=$i | \ sed 's/href=/\nhref=/g' | \ grep -E 'href="http://superuser.com/questions/[0-9]+' | \ sed 's/.*href="//g;s/".*//g' >> salida.txt hecho
Recuerde reemplazar http://example.com/webpage.htm
con la URL de su página real y http://specify.com
con la cadena anterior que desea especificar.
Puede especificar no solo una cadena anterior para exportar la URL, sino también un patrón de expresión regular si usa egrep
o grep -E
en el comando proporcionado anteriormente.
Si está ejecutando Windows, considere aprovecharCygwin. No olvide seleccionar los paquetes Wget
, grep
y sed
.
Respuesta2
Si estás de acuerdo con usar Firefox, puedes usar el complementoEnlaces rápidos Plus
Mantenga presionado el botón derecho del mouse y arrastre una selección alrededor de los enlaces.
Cuando estén resaltados, mantenga presionado Control mientras suelta el botón derecho del mouse.