
Depois de extrair manualmente os resultados de pesquisa do Google com um plug-in legal do Chrome, tenho as seguintes informações (para apenas dois resultados de pesquisa):
The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search
Meu objetivo é criar uma lista com URLs do Twitter como esta:
https://twitter.com/thtjournal
https://twitter.com/jcarrollhistory
Eu tenho o Notepad ++, então como posso usá-lo para obter uma lista apenas com os URLs? Todo o resto deveria ser excluído.
Responder1
- Ctrl+H
- Encontre o que:
^.*?(\bhttps://twitter\.com/\w+)?.*$
- Substituir com:
(?1$1:)
- confira Envolver
- verifique expressão regular
- NÃO VERIFIQUE
. matches newline
- Replace all
Explicação:
^ # beginning of line
.*? # 0 or more any character but newline, not greedy
( # start grpup 1
\b # word boundary
https://twitter\.com/ # literally
\w+ # 1 or more word character
)? # end group, optional
.* # 0 or more any character but newline
$ # end of line
Substituição:
(?1$1:) # if group 1 exists, then use it as replacement, else replace with nothing
Resultado para determinado exemplo:
https://twitter.com/thtjournal
https://twitter.com/jcarrollhistory
Responder2
Suponha que você tenha uma expressão regex que defina uma URL e vamos chamá-laexpressão regular.
Use no Notepad++ a caixa de diálogo Localizar, guia Substituir, para fazerSubstitua tudodeexpressão regularpor \n$1\n
. Isso separará todos os URLs em linhas que contêm apenas o URL, intercaladas com linhas inúteis.
Novamente na caixa de diálogo Localizar, guia Marcar, marque todas as linhas contendoexpressão regularusando oLinha de favoritosopção, usando oMarcar todosOperação.
Por último, noPesquisar => Favoritomenu, selecione a opção deRemover linhas não marcadas.
Para uma boa expressão regex para URLs, veja esta postagem:
Qual é a melhor expressão regular para verificar se uma string é uma URL válida?.
Para obter mais informações e capturas de tela, consulte este artigo para um caso semelhante:
Notepad++ como extrair endereços de e-mail de um arquivo.