Unix で、2 つのテキスト ファイルの類似性または相違性を評価する方法はありますか?
については知っていますdiff
が、違いだけを教えてくれます。私が求めているのは、回答として、これら 2 つのテキストがどの程度似ているかという何らかの評価を受け取ることです。同じ単語が多く含まれているか、テキストはよく似ているかなどです。これを質の高い方法で評価するのは実際にはかなり複雑なので、誰かがすでにこれを行っているかどうか疑問に思っています。
数字だけを受け取るのがよいでしょう。その場合、0 は同一であることを意味し、数字が大きいほど似ていないことを意味することになります。
答え1
diffstat
通常の出力を読み取りdiff
、さらにいくつかの統計を出力するものがあります線のみについて。
diff -u fileA fileB | diffstat
またはwdiff
処理する単語の差分。
wdiff -123 --statistics fileA fileB
さらに興味深いオプションを見つけるには、man ページを読むこともできます。