Unix 中有沒有一種方法可以評估兩個文本文件的相似或不同程度?
我知道diff
,但它只是給了我差異本身。我所追求的只是收到一個答案,即對這兩個文本有多相似的某種評估。它們是否包含很多相同的單詞,文本是否經常非常相似等等。
最好只收到一個數字,那麼 0 可能意味著它們是相同的,而較高的數字意味著它們完全不相似。
答案1
有diffstat
讀取正常diff
輸出並列印一些統計資料的功能僅關於線路。
diff -u fileA fileB | diffstat
或wdiff
處理單字差異。
wdiff -123 --statistics fileA fileB
您也可以閱讀手冊頁以找到一些更有趣的選項。