Extracción de datos XPath de una comunidad en línea utilizando Excel

Extracción de datos XPath de una comunidad en línea utilizando Excel

Hace poco leí estoartículosobre cómo extraer el perfil de los miembros de la comunidad de Inbound.org usando Excel. Y puedes ver elvideoaquí si lo prefieres así.

Desde el lanzamiento de este tutorial, la estructura del sitio web Inbound ha cambiado un poco, como puedes ver en el minuto 11:00 del video, si intentas copiar el XPath de los íconos de redes sociales se ve ligeramente diferente y por eso No he podido extraer esa información.

Esto es lo que obtengo ahora:

/html/body/div[3]/div/div/div[1]/div/div[2]/a[1]/i

Así es como escribí la sintaxis en Excel:

=XPathOnUrl(A2,"//a[@class='twitter']","href")

Y luego así:

=XPathOnUrl(A2,"//a[contains(@class,twitter)]/@href")

Aunque lo intenté de muchas maneras diferentes, ninguna me mostró el enlace al perfil de redes sociales del miembro.

Incluso intenté cambiar el xpath de varias maneras para obtener diferentes datos de la página, pero nada de eso era información de las redes sociales:

=XPathOnUrl(A2,"//*[contains(@class,member-banner-tagline)]/div[2]/div/div/div[1]/div/div[1]")

=XPathOnUrl(A2,"//*[contains(@class,member-banner-tagline)]/div[2]/div/div/div[1]/div/h1")

Sinceramente ya no sé qué intentar, algo anda mal y no puedo entenderlo. ¿Alguien tiene suficiente experiencia con esto o puede identificar el problema aquí con mi sintaxis?

Muchas gracias

Respuesta1

Según Firefox/Firebug, el XPath único para la URL de Twitter de un usuario es:

/html/body/div[2]/div/div/div[1]/div/div[2]/a[1]

Lo cual es ligeramente diferente a tu primer intento. NB: Modifiqué mi primer intento, no quieres que esté /ial final o obtienes el elemento interno, no el <a>que tiene la URL.

Pero entonces, su segundo intento ciertamente encuentra el elemento HTML correcto que contiene la URL y es más sólido.

Su tercer intento no funciona con XPathOnUrl, aunque funciona en Google Docs ImportXML porque no admite la sintaxis de atributos.

información relacionada