Elimine todo excepto las URL en Notepad++

Elimine todo excepto las URL en Notepad++

Después de extraer manualmente los resultados de búsqueda de Google con un complemento legal de Chrome, tengo la siguiente información (para solo dos resultados de búsqueda):

The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal  https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search

Mi objetivo es crear una lista con URL de Twitter como esta:

https://twitter.com/thtjournal

https://twitter.com/jcarrollhistory

Tengo Notepad++, entonces, ¿cómo puedo usarlo para obtener una lista solo con las URL? Todo lo demás debería eliminarse.

Respuesta1

  • Ctrl+H
  • Encontrar que:^.*?(\bhttps://twitter\.com/\w+)?.*$
  • Reemplazar con:(?1$1:)
  • comprobar Envolver alrededor
  • comprobar expresión regular
  • NO VERIFICAR. matches newline
  • Replace all

Explicación:

^                           # beginning of line
  .*?                       # 0 or more any character but newline, not greedy
  (                         # start grpup 1
    \b                      # word boundary
    https://twitter\.com/   # literally
    \w+                     # 1 or more word character
  )?                        # end group, optional
  .*                        # 0 or more any character but newline
$                           # end of line

Reemplazo:

(?1$1:)         # if group 1 exists, then use it as replacement, else replace with nothing

Resultado para el ejemplo dado:

https://twitter.com/thtjournal


https://twitter.com/jcarrollhistory

Respuesta2

Supongamos que tiene una expresión regular que define una URL y llamémoslaexpresión regular.

Utilice en Notepad++ el cuadro de diálogo Buscar, pestaña Reemplazar, para hacerReemplaza tododeexpresión regularpor \n$1\n. Esto separará todas las URL en líneas que solo contienen la URL, intercaladas con líneas basura.

Nuevamente en el cuadro de diálogo Buscar, pestaña Marcar, marque todas las líneas que contienenexpresión regularutilizando elLínea de marcadoropción, usando elMarca todasoperación.

Por último, en elBuscar => Marcar como favoritomenú, seleccione la opción deEliminar líneas sin marcar.

Para obtener una buena expresión regular para URL, consulte esta publicación:
¿Cuál es la mejor expresión regular para comprobar si una cadena es una URL válida?.

Para obtener más información y capturas de pantalla, consulte este artículo para un caso similar:
Notepad++ cómo extraer direcciones de correo electrónico de un archivo.

información relacionada