Remova tudo, exceto os URLs no Notepad++

Remova tudo, exceto os URLs no Notepad++

Depois de extrair manualmente os resultados de pesquisa do Google com um plug-in legal do Chrome, tenho as seguintes informações (para apenas dois resultados de pesquisa):

The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal  https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search

Meu objetivo é criar uma lista com URLs do Twitter como esta:

https://twitter.com/thtjournal

https://twitter.com/jcarrollhistory

Eu tenho o Notepad ++, então como posso usá-lo para obter uma lista apenas com os URLs? Todo o resto deveria ser excluído.

Responder1

  • Ctrl+H
  • Encontre o que:^.*?(\bhttps://twitter\.com/\w+)?.*$
  • Substituir com:(?1$1:)
  • confira Envolver
  • verifique expressão regular
  • NÃO VERIFIQUE. matches newline
  • Replace all

Explicação:

^                           # beginning of line
  .*?                       # 0 or more any character but newline, not greedy
  (                         # start grpup 1
    \b                      # word boundary
    https://twitter\.com/   # literally
    \w+                     # 1 or more word character
  )?                        # end group, optional
  .*                        # 0 or more any character but newline
$                           # end of line

Substituição:

(?1$1:)         # if group 1 exists, then use it as replacement, else replace with nothing

Resultado para determinado exemplo:

https://twitter.com/thtjournal


https://twitter.com/jcarrollhistory

Responder2

Suponha que você tenha uma expressão regex que defina uma URL e vamos chamá-laexpressão regular.

Use no Notepad++ a caixa de diálogo Localizar, guia Substituir, para fazerSubstitua tudodeexpressão regularpor \n$1\n. Isso separará todos os URLs em linhas que contêm apenas o URL, intercaladas com linhas inúteis.

Novamente na caixa de diálogo Localizar, guia Marcar, marque todas as linhas contendoexpressão regularusando oLinha de favoritosopção, usando oMarcar todosOperação.

Por último, noPesquisar => Favoritomenu, selecione a opção deRemover linhas não marcadas.

Para uma boa expressão regex para URLs, veja esta postagem:
Qual é a melhor expressão regular para verificar se uma string é uma URL válida?.

Para obter mais informações e capturas de tela, consulte este artigo para um caso semelhante:
Notepad++ como extrair endereços de e-mail de um arquivo.

informação relacionada