
После ручного анализа результатов поиска Google с помощью легального плагина Chrome у меня есть следующая информация (всего по двум результатам поиска):
The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search
Моя цель — создать список URL-адресов Twitter, например такой:
https://twitter.com/thtjournal
https://twitter.com/jcarrollhistory
У меня есть Notepad++, как я могу использовать его, чтобы получить список только с URL-адресами? Все остальное нужно удалить.
решение1
- Ctrl+H
- Найти то, что:
^.*?(\bhttps://twitter\.com/\w+)?.*$
- Заменить:
(?1$1:)
- проверить Обернуть вокруг
- проверить Регулярное выражение
- НЕ ПРОВЕРЯТЬ
. matches newline
- Replace all
Объяснение:
^ # beginning of line
.*? # 0 or more any character but newline, not greedy
( # start grpup 1
\b # word boundary
https://twitter\.com/ # literally
\w+ # 1 or more word character
)? # end group, optional
.* # 0 or more any character but newline
$ # end of line
Замена:
(?1$1:) # if group 1 exists, then use it as replacement, else replace with nothing
Результат для данного примера:
https://twitter.com/thtjournal
https://twitter.com/jcarrollhistory
решение2
Предположим, что у вас есть регулярное выражение, определяющее URL, и назовем егорегулярное выражение.
Используйте в Notepad++ диалоговое окно «Найти», вкладку «Заменить», чтобы сделатьЗаменить всеизрегулярное выражениепо \n$1\n
. Это разделит все URL-адреса на строки, содержащие только URL-адрес, перемежающиеся мусорными строками.
Снова в диалоговом окне «Найти» на вкладке «Отметить» отметьте все строки, содержащиерегулярное выражениеиспользуяЗакладка строкивариант, используяПометить всеоперация.
Наконец, вПоиск => Добавить в закладкименю, выберите опциюУдалить незаблокированные строки.
Хорошее регулярное выражение для URL-адресов можно найти в этой статье:
Какое регулярное выражение лучше всего подходит для проверки того, является ли строка допустимым URL-адресом?.
Более подробную информацию и скриншоты можно найти в этой статье о похожем случае:
Notepad++ как извлечь адреса электронной почты из файла.