¿Hay alguna forma en Unix de evaluar qué tan similares o diferentes son dos archivos de texto?
Lo sé diff
, pero solo me da las diferencias. Lo que busco es simplemente recibir como respuesta, algún tipo de evaluación de cuán parecidos son esos dos textos. ¿Contienen prácticamente las mismas palabras? ¿Los textos suelen ser bastante similares, etc.? En realidad, es bastante complicado evaluar esto de manera de alta calidad, así que me pregunto si alguien ya lo ha hecho.
Sería bueno recibir simplemente un número, entonces podría ser que 0 significa que son idénticos y un número alto significa que no se parecen en nada.
Respuesta1
Hay diffstat
uno que lee la salida normal diff
e imprime algunas estadísticas más.solo sobre líneas.
diff -u fileA fileB | diffstat
o wdiff
para manejardiferencias de palabras.
wdiff -123 --statistics fileA fileB
También puede leer las páginas de manual para encontrar algunas opciones más interesantes.