Gibt es unter Unix eine Möglichkeit, die Ähnlichkeit oder Unähnlichkeit zweier Textdateien zu ermitteln?
Ich weiß von diff
, aber es zeigt mir nur die Unterschiede selbst an. Was ich möchte, ist lediglich eine Antwort, eine Art Bewertung, wie ähnlich sich diese beiden Texte sind. Enthalten sie weitgehend dieselben Wörter, sind die Texte oft recht ähnlich usw. Es ist tatsächlich ziemlich kompliziert, dies auf qualitativ hochwertige Weise zu bewerten, daher frage ich mich, ob das schon jemand getan hat.
Es wäre gut, einfach eine Zahl zu erhalten. Dann könnte 0 bedeuten, dass sie identisch sind, und eine hohe Zahl bedeutet, dass sie sich überhaupt nicht ähneln.
Antwort1
Es gibt diffstat
, die normale Ausgabe liest diff
und einige Statistiken mehr drucktnur über Linien.
diff -u fileA fileB | diffstat
oder wdiff
zu handhabenWortunterschiede.
wdiff -123 --statistics fileA fileB
Sie können auch die Manpages lesen, um weitere interessante Optionen zu finden.