Удалить все, кроме URL-адресов в Notepad++

Удалить все, кроме URL-адресов в Notepad++

После ручного анализа результатов поиска Google с помощью легального плагина Chrome у меня есть следующая информация (всего по двум результатам поиска):

The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal  https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search

Моя цель — создать список URL-адресов Twitter, например такой:

https://twitter.com/thtjournal

https://twitter.com/jcarrollhistory

У меня есть Notepad++, как я могу использовать его, чтобы получить список только с URL-адресами? Все остальное нужно удалить.

решение1

  • Ctrl+H
  • Найти то, что:^.*?(\bhttps://twitter\.com/\w+)?.*$
  • Заменить:(?1$1:)
  • проверить Обернуть вокруг
  • проверить Регулярное выражение
  • НЕ ПРОВЕРЯТЬ. matches newline
  • Replace all

Объяснение:

^                           # beginning of line
  .*?                       # 0 or more any character but newline, not greedy
  (                         # start grpup 1
    \b                      # word boundary
    https://twitter\.com/   # literally
    \w+                     # 1 or more word character
  )?                        # end group, optional
  .*                        # 0 or more any character but newline
$                           # end of line

Замена:

(?1$1:)         # if group 1 exists, then use it as replacement, else replace with nothing

Результат для данного примера:

https://twitter.com/thtjournal


https://twitter.com/jcarrollhistory

решение2

Предположим, что у вас есть регулярное выражение, определяющее URL, и назовем егорегулярное выражение.

Используйте в Notepad++ диалоговое окно «Найти», вкладку «Заменить», чтобы сделатьЗаменить всеизрегулярное выражениепо \n$1\n. Это разделит все URL-адреса на строки, содержащие только URL-адрес, перемежающиеся мусорными строками.

Снова в диалоговом окне «Найти» на вкладке «Отметить» отметьте все строки, содержащиерегулярное выражениеиспользуяЗакладка строкивариант, используяПометить всеоперация.

Наконец, вПоиск => Добавить в закладкименю, выберите опциюУдалить незаблокированные строки.

Хорошее регулярное выражение для URL-адресов можно найти в этой статье:
Какое регулярное выражение лучше всего подходит для проверки того, является ли строка допустимым URL-адресом?.

Более подробную информацию и скриншоты можно найти в этой статье о похожем случае:
Notepad++ как извлечь адреса электронной почты из файла.

Связанный контент