2 つのファイルの違いを評価する

2 つのファイルの違いを評価する

Unix で、2 つのテキスト ファイルの類似性または相違性を評価する方法はありますか?

については知っていますdiffが、違いだけを教えてくれます。私が求めているのは、回答として、これら 2 つのテキストがどの程度似ているかという何らかの評価を受け取ることです。同じ単語が多く含まれているか、テキストはよく似ているかなどです。これを質の高い方法で評価するのは実際にはかなり複雑なので、誰かがすでにこれを行っているかどうか疑問に思っています。

数字だけを受け取るのがよいでしょう。その場合、0 は同一であることを意味し、数字が大きいほど似ていないことを意味することになります。

答え1

diffstat通常の出力を読み取りdiff、さらにいくつかの統計を出力するものがあります線のみについて

diff -u fileA fileB | diffstat

またはwdiff処理する単語の差分

wdiff -123 --statistics fileA fileB

さらに興味深いオプションを見つけるには、man ページを読むこともできます。

関連情報