Entfernen Sie alles außer den URLs in Notepad++

Entfernen Sie alles außer den URLs in Notepad++

Nachdem ich die Google-Suchergebnisse manuell mit einem legalen Chrome-Plugin durchsucht habe, verfüge ich über die folgenden Informationen (für nur zwei Suchergebnisse):

The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal  https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search

Mein Ziel ist es, eine Liste mit Twitter-URLs wie dieser zu erstellen:

https://twitter.com/thtjournal

https://twitter.com/jcarrollhistory

Ich habe Notepad++. Wie kann ich damit eine Liste nur mit den URLs erstellen? Alles andere sollte gelöscht werden.

Antwort1

  • Ctrl+H
  • Finde was:^.*?(\bhttps://twitter\.com/\w+)?.*$
  • Ersetzen mit:(?1$1:)
  • check Umwickeln
  • check Regulärer Ausdruck
  • NICHT PRÜFEN. matches newline
  • Replace all

Erläuterung:

^                           # beginning of line
  .*?                       # 0 or more any character but newline, not greedy
  (                         # start grpup 1
    \b                      # word boundary
    https://twitter\.com/   # literally
    \w+                     # 1 or more word character
  )?                        # end group, optional
  .*                        # 0 or more any character but newline
$                           # end of line

Ersatz:

(?1$1:)         # if group 1 exists, then use it as replacement, else replace with nothing

Ergebnis für gegebenes Beispiel:

https://twitter.com/thtjournal


https://twitter.com/jcarrollhistory

Antwort2

Nehmen wir an, Sie haben einen Regex-Ausdruck, der eine URL definiert, und nennen wir ihnregulärer Ausdruck.

Verwenden Sie in Notepad++ den Dialog Suchen, Registerkarte Ersetzen, umAlles ersetzenvonregulärer Ausdruckdurch \n$1\n. Dadurch werden alle URLs in Zeilen aufgeteilt, die nur die URL enthalten, durchsetzt mit Müllzeilen.

Markieren Sie im Dialogfeld „Suchen“ auf der Registerkarte „Markieren“ alle Zeilen, dieregulärer AusdruckVerwendung derLesezeichenzeilemit der OptionAlles markierenBetrieb.

Zuletzt imSuche => LesezeichenWählen Sie im Menü die OptionNicht mit Lesezeichen versehene Zeilen entfernen.

Einen guten Regex-Ausdruck für URLs finden Sie in diesem Beitrag:
Was ist der beste reguläre Ausdruck, um zu überprüfen, ob eine Zeichenfolge eine gültige URL ist?.

Weitere Informationen und Screenshots finden Sie in diesem Artikel zu einem ähnlichen Fall:
Notepad++: So extrahieren Sie E-Mail-Adressen aus einer Datei.

verwandte Informationen