
Después de extraer manualmente los resultados de búsqueda de Google con un complemento legal de Chrome, tengo la siguiente información (para solo dos resultados de búsqueda):
The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search
Mi objetivo es crear una lista con URL de Twitter como esta:
https://twitter.com/thtjournal
https://twitter.com/jcarrollhistory
Tengo Notepad++, entonces, ¿cómo puedo usarlo para obtener una lista solo con las URL? Todo lo demás debería eliminarse.
Respuesta1
- Ctrl+H
- Encontrar que:
^.*?(\bhttps://twitter\.com/\w+)?.*$
- Reemplazar con:
(?1$1:)
- comprobar Envolver alrededor
- comprobar expresión regular
- NO VERIFICAR
. matches newline
- Replace all
Explicación:
^ # beginning of line
.*? # 0 or more any character but newline, not greedy
( # start grpup 1
\b # word boundary
https://twitter\.com/ # literally
\w+ # 1 or more word character
)? # end group, optional
.* # 0 or more any character but newline
$ # end of line
Reemplazo:
(?1$1:) # if group 1 exists, then use it as replacement, else replace with nothing
Resultado para el ejemplo dado:
https://twitter.com/thtjournal
https://twitter.com/jcarrollhistory
Respuesta2
Supongamos que tiene una expresión regular que define una URL y llamémoslaexpresión regular.
Utilice en Notepad++ el cuadro de diálogo Buscar, pestaña Reemplazar, para hacerReemplaza tododeexpresión regularpor \n$1\n
. Esto separará todas las URL en líneas que solo contienen la URL, intercaladas con líneas basura.
Nuevamente en el cuadro de diálogo Buscar, pestaña Marcar, marque todas las líneas que contienenexpresión regularutilizando elLínea de marcadoropción, usando elMarca todasoperación.
Por último, en elBuscar => Marcar como favoritomenú, seleccione la opción deEliminar líneas sin marcar.
Para obtener una buena expresión regular para URL, consulte esta publicación:
¿Cuál es la mejor expresión regular para comprobar si una cadena es una URL válida?.
Para obtener más información y capturas de pantalla, consulte este artículo para un caso similar:
Notepad++ cómo extraer direcciones de correo electrónico de un archivo.