¿Modificación mediante script "multipaso" de un archivo grande en el lugar (nivel del sistema de archivos)?

Question 1

La estructura de los archivos en el disco depende del sistema de archivos utilizado. Ninguno de los sistemas de archivos del mundo real utiliza listas vinculadas como usted describe (eso sería fseek(3)insoportable). Lo más parecido a esto es el de Microsoft.GORDO, esencialmente moviendo los punteros fuera de los bloques de datos a una matriz que los sigue.

Pero la mayoría de los sistemas de archivos utilizan algunas referencias basadas en punteros a bloques de datos en el archivo, por lo que, en principio, se podría cortar un bloque de un archivo simplemente mezclando un puñado de punteros (no todo el contenido del archivo) y marcando un bloque en el archivo. medio del archivo como gratuito. Lamentablemente, esta no es una operación muy útil, los bloques de archivos son bastante grandes (normalmente 4 KB) y rara vez se alinean razonablemente con las estructuras del archivo (ya sean líneas u otras subdivisiones).

Answer

La estructura de los archivos en el disco depende del sistema de archivos utilizado. Ninguno de los sistemas de archivos del mundo real utiliza listas vinculadas como usted describe (eso sería fseek(3)insoportable). Lo más parecido a esto es el de Microsoft.GORDO, esencialmente moviendo los punteros fuera de los bloques de datos a una matriz que los sigue.

Pero la mayoría de los sistemas de archivos utilizan algunas referencias basadas en punteros a bloques de datos en el archivo, por lo que, en principio, se podría cortar un bloque de un archivo simplemente mezclando un puñado de punteros (no todo el contenido del archivo) y marcando un bloque en el archivo. medio del archivo como gratuito. Lamentablemente, esta no es una operación muy útil, los bloques de archivos son bastante grandes (normalmente 4 KB) y rara vez se alinean razonablemente con las estructuras del archivo (ya sean líneas u otras subdivisiones).

Question 2

Lo que usted describe suena mucho arepeticiónde un editor de textolista de rehacercontra el archivo original sin cambios al que selista de rehacerpertenece. Estoy bastante seguro de que gvimtiene talpersistenteLista de deshacer/rehacer, que usted puede (?) utilizar, y sé que emacsdefinitivamente tiene una lista de este tipo a la que probablemente podría convencer para que haga lo que quiera (a través de un elispscript), por ejemplo.Guardar el historial de deshacer de Emacs entre sesiones.

Como nota al margen, desactivar todas las acciones no deseadas podría ser una buena idea para archivos tan grandes, por ejemplo:guardado automático,resaltado de sintaxis(lento en ungrandearchivo emacs), etc. y emacs en un sistema de 32 bits tiene 256 MBlímite de tamaño de archivo.

Ciertamente no será tan conciso como lo que sugirió, pero puede ser útil si no hay una gran cantidad de cambios.

Answer

Lo que usted describe suena mucho arepeticiónde un editor de textolista de rehacercontra el archivo original sin cambios al que selista de rehacerpertenece. Estoy bastante seguro de que gvimtiene talpersistenteLista de deshacer/rehacer, que usted puede (?) utilizar, y sé que emacsdefinitivamente tiene una lista de este tipo a la que probablemente podría convencer para que haga lo que quiera (a través de un elispscript), por ejemplo.Guardar el historial de deshacer de Emacs entre sesiones.

Como nota al margen, desactivar todas las acciones no deseadas podría ser una buena idea para archivos tan grandes, por ejemplo:guardado automático,resaltado de sintaxis(lento en ungrandearchivo emacs), etc. y emacs en un sistema de 32 bits tiene 256 MBlímite de tamaño de archivo.

Ciertamente no será tan conciso como lo que sugirió, pero puede ser útil si no hay una gran cantidad de cambios.

Question 3

Generalmente, no se puede editar un archivo en el lugar sin guardarlo completo en la memoria. Supongo que lo que realmente quieres hacer es tener un archivo nuevo que sea una copia del anterior sin líneas específicas. Esto se puede lograr fácilmente usando las utilidades de Unix heady tail. Por ejemplo, para copiar todo excepto las líneas 5, 12 y 52 de un archivo, puede hacer

head -n 4 bigfile.dat > tempfile.dat
tail -n +6 bigfile.dat | head -n 6 >> tempfile.dat 
tail -n +13 bigfile.dat | head -n 39 >> tempfile.dat 
tail -n 53 bigfile.dat >> tempfile.dat

En caso de que no estés familiarizado con estas utilidades, te las explicaré con más detalle.

La headutilidad imprime las primeras n líneas de un archivo. Si no se le proporciona un argumento posicional, utilizará la entrada estándar como archivo. La -nbandera le indica al cabezal cuántas líneas imprimir. Entonces, head -n 2imprimirá solo las primeras 2 líneas de la entrada estándar.

La tailutilidad imprime las últimas n líneas de un archivo. Al igual que head, puede leer desde un archivo o una entrada estándar. La bandera -n le dice a tail cuántas líneas imprimir desde el final. También puede anteponer el número con un signo más para indicarle a tail que imprima las líneas desde el final del archivo comenzando con esa cantidad de líneas desde el principio. Por ejemplo, tail -n 2imprime las dos últimas líneas de la entrada estándar. Sin embargo, tail -n +2imprime todas las líneas que comienzan con la línea número 2 (omite la línea 1).

Entonces, en general, si desea imprimir líneas en el rango [x, y) de un archivo, haría

`tail -n +x | head -n d`

donde d = y - x. Estos comandos producirán un nuevo archivo. Luego puede eliminar el archivo antiguo si lo desea. La ventaja de hacerlo de esta manera es que headsolo tailnecesita mantener una línea en la memoria a la vez, por lo que no llenará rápidamente su RAM.

Answer

Generalmente, no se puede editar un archivo en el lugar sin guardarlo completo en la memoria. Supongo que lo que realmente quieres hacer es tener un archivo nuevo que sea una copia del anterior sin líneas específicas. Esto se puede lograr fácilmente usando las utilidades de Unix heady tail. Por ejemplo, para copiar todo excepto las líneas 5, 12 y 52 de un archivo, puede hacer

head -n 4 bigfile.dat > tempfile.dat
tail -n +6 bigfile.dat | head -n 6 >> tempfile.dat 
tail -n +13 bigfile.dat | head -n 39 >> tempfile.dat 
tail -n 53 bigfile.dat >> tempfile.dat

En caso de que no estés familiarizado con estas utilidades, te las explicaré con más detalle.

La headutilidad imprime las primeras n líneas de un archivo. Si no se le proporciona un argumento posicional, utilizará la entrada estándar como archivo. La -nbandera le indica al cabezal cuántas líneas imprimir. Entonces, head -n 2imprimirá solo las primeras 2 líneas de la entrada estándar.

La tailutilidad imprime las últimas n líneas de un archivo. Al igual que head, puede leer desde un archivo o una entrada estándar. La bandera -n le dice a tail cuántas líneas imprimir desde el final. También puede anteponer el número con un signo más para indicarle a tail que imprima las líneas desde el final del archivo comenzando con esa cantidad de líneas desde el principio. Por ejemplo, tail -n 2imprime las dos últimas líneas de la entrada estándar. Sin embargo, tail -n +2imprime todas las líneas que comienzan con la línea número 2 (omite la línea 1).

Entonces, en general, si desea imprimir líneas en el rango [x, y) de un archivo, haría

`tail -n +x | head -n d`

donde d = y - x. Estos comandos producirán un nuevo archivo. Luego puede eliminar el archivo antiguo si lo desea. La ventaja de hacerlo de esta manera es que headsolo tailnecesita mantener una línea en la memoria a la vez, por lo que no llenará rápidamente su RAM.

Question 4

Suena como un trabajo para un guión sed. IIRC fue diseñado para tales tareas. El procesamiento línea por línea, el procesamiento repetido del mismo grupo de comandos y las expresiones regulares se combinan en una sola herramienta. Si bien sé que funcionará, no puedo guiarlo más que dirigirlo a su excelentepágina de manual.

Answer

Suena como un trabajo para un guión sed. IIRC fue diseñado para tales tareas. El procesamiento línea por línea, el procesamiento repetido del mismo grupo de comandos y las expresiones regulares se combinan en una sola herramienta. Si bien sé que funcionará, no puedo guiarlo más que dirigirlo a su excelentepágina de manual.

¿Modificación mediante script "multipaso" de un archivo grande en el lugar (nivel del sistema de archivos)?

Respuesta1

Respuesta2

Respuesta3

Respuesta4

información relacionada