Existe uma maneira no Unix de avaliar o quão semelhantes ou diferentes são dois arquivos de texto?
Eu sei diff
, mas isso apenas me dá as diferenças em si. O que procuro é apenas receber como resposta algum tipo de avaliação do quanto esses dois textos são parecidos. Eles contêm praticamente as mesmas palavras, os textos costumam ser bastante semelhantes, etc. Na verdade, é muito complicado avaliar isso com alta qualidade, então estou me perguntando se alguém já fez isso.
Seria bom receber apenas um número, então 0 significa que eles são idênticos e um número alto significa que não são nada parecidos.
Responder1
Existe diffstat
um que lê diff
a saída normal e imprime mais algumas estatísticasapenas sobre linhas.
diff -u fileA fileB | diffstat
ou wdiff
para lidardiferenças de palavras.
wdiff -123 --statistics fileA fileB
Você também pode ler as páginas de manual para encontrar algumas opções mais interessantes.