Avalie diferenças entre dois arquivos

Avalie diferenças entre dois arquivos

Existe uma maneira no Unix de avaliar o quão semelhantes ou diferentes são dois arquivos de texto?

Eu sei diff, mas isso apenas me dá as diferenças em si. O que procuro é apenas receber como resposta algum tipo de avaliação do quanto esses dois textos são parecidos. Eles contêm praticamente as mesmas palavras, os textos costumam ser bastante semelhantes, etc. Na verdade, é muito complicado avaliar isso com alta qualidade, então estou me perguntando se alguém já fez isso.

Seria bom receber apenas um número, então 0 significa que eles são idênticos e um número alto significa que não são nada parecidos.

Responder1

Existe diffstatum que lê diffa saída normal e imprime mais algumas estatísticasapenas sobre linhas.

diff -u fileA fileB | diffstat

ou wdiffpara lidardiferenças de palavras.

wdiff -123 --statistics fileA fileB

Você também pode ler as páginas de manual para encontrar algumas opções mais interessantes.

informação relacionada