![Extração de dados XPath da comunidade online usando Excel](https://rvso.com/image/1449105/Extra%C3%A7%C3%A3o%20de%20dados%20XPath%20da%20comunidade%20online%20usando%20Excel.png)
Eu li isso recentementeartigosobre como extrair o perfil dos membros da comunidade Inbound.org usando o Excel. E você pode assistir ovídeoaqui se preferir assim.
Desde o lançamento deste tutorial, a estrutura do site Inbound mudou um pouco, como você pode ver no minuto 11:00 do vídeo, se você tentar copiar o XPath dos ícones da mídia social ele aparece um pouco diferente e por isso eu não consegui extrair essa informação.
Aqui está o que recebo agora:
/html/body/div[3]/div/div/div[1]/div/div[2]/a[1]/i
Foi assim que escrevi a sintaxe no Excel:
=XPathOnUrl(A2,"//a[@class='twitter']","href")
E então assim:
=XPathOnUrl(A2,"//a[contains(@class,twitter)]/@href")
Embora eu tenha tentado de diversas maneiras, nenhuma delas me mostrou o link para o perfil do membro nas redes sociais.
Até tentei alterar o xpath de várias maneiras para obter dados diferentes da página, mas nada disso era informação da mídia social:
=XPathOnUrl(A2,"//*[contains(@class,member-banner-tagline)]/div[2]/div/div/div[1]/div/div[1]")
=XPathOnUrl(A2,"//*[contains(@class,member-banner-tagline)]/div[2]/div/div/div[1]/div/h1")
Sinceramente, não sei mais o que tentar, algo está errado e não consigo descobrir. Alguém tem experiência suficiente com isso ou pode identificar o problema aqui com minha sintaxe?
Muito obrigado
Responder1
De acordo com o Firefox/Firebug, o XPath exclusivo para a URL do Twitter de um usuário é:
/html/body/div[2]/div/div/div[1]/div/div[2]/a[1]
O que é um pouco diferente da sua primeira tentativa. NB: Alterei minha primeira tentativa, você não quer o /i
no final ou obtém o elemento interno e não <a>
o URL.
Mas então, sua segunda tentativa certamente encontrará o elemento HTML correto que contém a URL e é mais robusto.
Sua terceira tentativa não funciona com XPathOnUrl, embora funcione no Google Docs ImportXML porque não oferece suporte à sintaxe do atributo.