Sustituir cadenas en un archivo muy grande

Question 1

Con awkpuedes evitar leer una gran cantidad de texto a la vez:

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

El éxito puede depender de la awkimplementación utilizada. Por ejemplo, gawkfunciona bien, pero mawkfalla.

Answer

Con awkpuedes evitar leer una gran cantidad de texto a la vez:

awk -vRS='http://' -vORS='\nhttp://' 1 urls.txt > urlsperline.txt

El éxito puede depender de la awkimplementación utilizada. Por ejemplo, gawkfunciona bien, pero mawkfalla.

Question 2

Esto hará el trabajo:

perl -pe 'BEGIN { $/ = "//" } s!(?=http://\z)!\n!' urls.txt

Configurando$/, Cambié la definición de una línea para que termine en //lugar de una nueva línea. Esto hace que Perl lea una URL a la vez. Es poco probable que una URL contenga //excepto después del esquema, pero está bien si lo contiene, la expresión regular evitará que agregue nuevas líneas falsas.

Si desea evitar agregar una línea en blanco antes de la primera URL:

perl -pe 'BEGIN { $/ = "//"; print scalar <> } s!(?=http://\z)!\n!' urls.txt

Puede intentar realizar una evaluación comparativa para ver si s!http://\z!\nhttp://!es más rápido. Son equivalentes. Tenga en cuenta que la /gbandera no es necesaria en la sustitución, porque sólo puede haber una coincidencia por "línea".

Answer

Esto hará el trabajo:

perl -pe 'BEGIN { $/ = "//" } s!(?=http://\z)!\n!' urls.txt

Configurando$/, Cambié la definición de una línea para que termine en //lugar de una nueva línea. Esto hace que Perl lea una URL a la vez. Es poco probable que una URL contenga //excepto después del esquema, pero está bien si lo contiene, la expresión regular evitará que agregue nuevas líneas falsas.

Si desea evitar agregar una línea en blanco antes de la primera URL:

perl -pe 'BEGIN { $/ = "//"; print scalar <> } s!(?=http://\z)!\n!' urls.txt

Puede intentar realizar una evaluación comparativa para ver si s!http://\z!\nhttp://!es más rápido. Son equivalentes. Tenga en cuenta que la /gbandera no es necesaria en la sustitución, porque sólo puede haber una coincidencia por "línea".

Question 3

Cambie todas las apariciones de a :con una nueva línea para dividir el archivo.
Reemplazar
- httpal final de la línea con
- una nueva línea seguida de http:y agregarle la siguiente línea
Repita una vez, para que se actualicen las líneas pares e impares.

Estos pasos se parecen a:

tr ':' '\n' | sed -e '/http$/{N;s/http\n/\nhttp:/}' | sed -e '/http$/{N;s/http\n/\nhttp:/}'

Compruebe si hay líneas que no comienzan con http://, imprima los números de línea. Esto solo ocurriría si : está en algún lugar de la URL que no sea después de http.

grep -nv '^http://'

Answer

Cambie todas las apariciones de a :con una nueva línea para dividir el archivo.
Reemplazar
- httpal final de la línea con
- una nueva línea seguida de http:y agregarle la siguiente línea
Repita una vez, para que se actualicen las líneas pares e impares.

Estos pasos se parecen a:

tr ':' '\n' | sed -e '/http$/{N;s/http\n/\nhttp:/}' | sed -e '/http$/{N;s/http\n/\nhttp:/}'

Compruebe si hay líneas que no comienzan con http://, imprima los números de línea. Esto solo ocurriría si : está en algún lugar de la URL que no sea después de http.

grep -nv '^http://'

Sustituir cadenas en un archivo muy grande

Respuesta1

Respuesta2

Respuesta3

información relacionada