Extração de dados XPath da comunidade online usando Excel

Extração de dados XPath da comunidade online usando Excel

Eu li isso recentementeartigosobre como extrair o perfil dos membros da comunidade Inbound.org usando o Excel. E você pode assistir ovídeoaqui se preferir assim.

Desde o lançamento deste tutorial, a estrutura do site Inbound mudou um pouco, como você pode ver no minuto 11:00 do vídeo, se você tentar copiar o XPath dos ícones da mídia social ele aparece um pouco diferente e por isso eu não consegui extrair essa informação.

Aqui está o que recebo agora:

/html/body/div[3]/div/div/div[1]/div/div[2]/a[1]/i

Foi assim que escrevi a sintaxe no Excel:

=XPathOnUrl(A2,"//a[@class='twitter']","href")

E então assim:

=XPathOnUrl(A2,"//a[contains(@class,twitter)]/@href")

Embora eu tenha tentado de diversas maneiras, nenhuma delas me mostrou o link para o perfil do membro nas redes sociais.

Até tentei alterar o xpath de várias maneiras para obter dados diferentes da página, mas nada disso era informação da mídia social:

=XPathOnUrl(A2,"//*[contains(@class,member-banner-tagline)]/div[2]/div/div/div[1]/div/div[1]")

=XPathOnUrl(A2,"//*[contains(@class,member-banner-tagline)]/div[2]/div/div/div[1]/div/h1")

Sinceramente, não sei mais o que tentar, algo está errado e não consigo descobrir. Alguém tem experiência suficiente com isso ou pode identificar o problema aqui com minha sintaxe?

Muito obrigado

Responder1

De acordo com o Firefox/Firebug, o XPath exclusivo para a URL do Twitter de um usuário é:

/html/body/div[2]/div/div/div[1]/div/div[2]/a[1]

O que é um pouco diferente da sua primeira tentativa. NB: Alterei minha primeira tentativa, você não quer o /ino final ou obtém o elemento interno e não <a>o URL.

Mas então, sua segunda tentativa certamente encontrará o elemento HTML correto que contém a URL e é mais robusto.

Sua terceira tentativa não funciona com XPathOnUrl, embora funcione no Google Docs ImportXML porque não oferece suporte à sintaxe do atributo.

informação relacionada