Modificação com script "Multipass" de arquivo grande no local (nível do sistema de arquivos)?

Question 1

A estrutura dos arquivos no disco depende do sistema de arquivos em uso. Nenhum dos sistemas de arquivos do mundo real usa listas vinculadas conforme você descreve (isso tornaria fseek(3)insuportável). A coisa mais próxima disso é a MicrosoftGORDO, essencialmente movendo os ponteiros dos blocos de dados para uma matriz que os sombreia.

Mas a maioria dos sistemas de arquivos usa algumas referências baseadas em ponteiros para blocos de dados no arquivo, então, em princípio, alguém poderia cortar um bloco de um arquivo apenas embaralhando um punhado de ponteiros (não todo o conteúdo do arquivo) e marcando um bloco no meio do arquivo como gratuito. Infelizmente, essa não é uma operação muito útil, os blocos de arquivo são bastante grandes (normalmente 4KiB) e raramente se alinham razoavelmente com as estruturas do arquivo (sejam linhas ou outras subdivisões).

Answer

A estrutura dos arquivos no disco depende do sistema de arquivos em uso. Nenhum dos sistemas de arquivos do mundo real usa listas vinculadas conforme você descreve (isso tornaria fseek(3)insuportável). A coisa mais próxima disso é a MicrosoftGORDO, essencialmente movendo os ponteiros dos blocos de dados para uma matriz que os sombreia.

Mas a maioria dos sistemas de arquivos usa algumas referências baseadas em ponteiros para blocos de dados no arquivo, então, em princípio, alguém poderia cortar um bloco de um arquivo apenas embaralhando um punhado de ponteiros (não todo o conteúdo do arquivo) e marcando um bloco no meio do arquivo como gratuito. Infelizmente, essa não é uma operação muito útil, os blocos de arquivo são bastante grandes (normalmente 4KiB) e raramente se alinham razoavelmente com as estruturas do arquivo (sejam linhas ou outras subdivisões).

Question 2

O que você descreve parece muito com umrepetirde um editor de textolista de refazercontra o arquivo original inalterado ao quallista de refazerpertence. Tenho certeza que gvimtem um talpersistentelista de desfazer/refazer, que você pode (?) ser capaz de utilizar, e eu sei que emacsdefinitivamente tem uma lista que você provavelmente poderia persuadir a fazer o que quiser (por meio de um elispscript), por exemplo.Salvar o histórico de desfazer do Emacs entre sessões.

Como observação lateral, desligar todas as ações indesejadas pode ser uma boa ideia para arquivos tão grandes, por exemplo:salvamento automático,destaque de sintaxe(lento em umgrandearquivo emacs), etc. e o emacs em um sistema de 32 bits tem 256 MBlimite de tamanho de arquivo.

Certamente não será tão conciso quanto o que você sugeriu, mas pode ser útil se não houver um grande número de alterações.

Answer

O que você descreve parece muito com umrepetirde um editor de textolista de refazercontra o arquivo original inalterado ao quallista de refazerpertence. Tenho certeza que gvimtem um talpersistentelista de desfazer/refazer, que você pode (?) ser capaz de utilizar, e eu sei que emacsdefinitivamente tem uma lista que você provavelmente poderia persuadir a fazer o que quiser (por meio de um elispscript), por exemplo.Salvar o histórico de desfazer do Emacs entre sessões.

Como observação lateral, desligar todas as ações indesejadas pode ser uma boa ideia para arquivos tão grandes, por exemplo:salvamento automático,destaque de sintaxe(lento em umgrandearquivo emacs), etc. e o emacs em um sistema de 32 bits tem 256 MBlimite de tamanho de arquivo.

Certamente não será tão conciso quanto o que você sugeriu, mas pode ser útil se não houver um grande número de alterações.

Question 3

Geralmente, você não pode editar um arquivo sem colocar o arquivo inteiro na memória. Presumo que o que você realmente deseja fazer é apenas ter um novo arquivo que seja uma cópia do antigo, sem linhas específicas. Isso pode ser feito facilmente usando os utilitários unix heade tail. Por exemplo, para copiar tudo, exceto as linhas 5, 12 e 52 de um arquivo, você pode fazer

head -n 4 bigfile.dat > tempfile.dat
tail -n +6 bigfile.dat | head -n 6 >> tempfile.dat 
tail -n +13 bigfile.dat | head -n 39 >> tempfile.dat 
tail -n 53 bigfile.dat >> tempfile.dat

Caso você não esteja familiarizado com esses utilitários, explicarei com mais detalhes.

O headutilitário imprime as primeiras n linhas de um arquivo. Se não receber um argumento posicional, ele usará a entrada padrão como arquivo. A -nbandeira informa quantas linhas imprimir. Portanto, head -n 2imprimirá apenas as 2 primeiras linhas da entrada padrão.

O tailutilitário imprime as últimas n linhas de um arquivo. Assim como o head, ele pode ler um arquivo ou entrada padrão. O sinalizador -n informa ao tail quantas linhas imprimir a partir do final. Você também pode prefixar o número com um sinal de mais para dizer ao tail para imprimir as linhas do final do arquivo, começando com tantas linhas desde o início. Por exemplo, tail -n 2imprime as duas últimas linhas da entrada padrão. No entanto, tail -n +2imprime todas as linhas começando com a linha número 2 (omite a linha 1).

Então, em geral, se você quiser imprimir linhas no intervalo [x, y) de um arquivo, você faria

`tail -n +x | head -n d`

onde d = y - x. Esses comandos produzirão um novo arquivo. Você pode então excluir o arquivo antigo, se desejar. A vantagem de fazer dessa forma é que headvocê tailsó precisa manter uma linha na memória por vez, para não encher rapidamente sua RAM.

Answer

Geralmente, você não pode editar um arquivo sem colocar o arquivo inteiro na memória. Presumo que o que você realmente deseja fazer é apenas ter um novo arquivo que seja uma cópia do antigo, sem linhas específicas. Isso pode ser feito facilmente usando os utilitários unix heade tail. Por exemplo, para copiar tudo, exceto as linhas 5, 12 e 52 de um arquivo, você pode fazer

head -n 4 bigfile.dat > tempfile.dat
tail -n +6 bigfile.dat | head -n 6 >> tempfile.dat 
tail -n +13 bigfile.dat | head -n 39 >> tempfile.dat 
tail -n 53 bigfile.dat >> tempfile.dat

Caso você não esteja familiarizado com esses utilitários, explicarei com mais detalhes.

O headutilitário imprime as primeiras n linhas de um arquivo. Se não receber um argumento posicional, ele usará a entrada padrão como arquivo. A -nbandeira informa quantas linhas imprimir. Portanto, head -n 2imprimirá apenas as 2 primeiras linhas da entrada padrão.

O tailutilitário imprime as últimas n linhas de um arquivo. Assim como o head, ele pode ler um arquivo ou entrada padrão. O sinalizador -n informa ao tail quantas linhas imprimir a partir do final. Você também pode prefixar o número com um sinal de mais para dizer ao tail para imprimir as linhas do final do arquivo, começando com tantas linhas desde o início. Por exemplo, tail -n 2imprime as duas últimas linhas da entrada padrão. No entanto, tail -n +2imprime todas as linhas começando com a linha número 2 (omite a linha 1).

Então, em geral, se você quiser imprimir linhas no intervalo [x, y) de um arquivo, você faria

`tail -n +x | head -n d`

onde d = y - x. Esses comandos produzirão um novo arquivo. Você pode então excluir o arquivo antigo, se desejar. A vantagem de fazer dessa forma é que headvocê tailsó precisa manter uma linha na memória por vez, para não encher rapidamente sua RAM.

Question 4

Parece um trabalho para um script sed. IIRC foi projetado para tais tarefas. Processamento linha por linha, processamento repetido do mesmo grupo de comandos e regex, todos combinados em uma ferramenta. Embora eu saiba que isso funcionará, não posso orientá-lo além de direcioná-lo para a multapágina de manual.

Answer

Parece um trabalho para um script sed. IIRC foi projetado para tais tarefas. Processamento linha por linha, processamento repetido do mesmo grupo de comandos e regex, todos combinados em uma ferramenta. Embora eu saiba que isso funcionará, não posso orientá-lo além de direcioná-lo para a multapágina de manual.

Modificação com script "Multipass" de arquivo grande no local (nível do sistema de arquivos)?

Responder1

Responder2

Responder3

Responder4

informação relacionada