Unix에서 두 텍스트 파일의 유사성 또는 유사성을 평가할 수 있는 방법이 있습니까?
에 대해 알고 있지만 diff
차이점 자체를 알려줄 뿐입니다. 내가 추구하는 것은 단지 답변, 즉 두 텍스트가 얼마나 유사한지에 대한 일종의 평가를 받는 것입니다. 동일한 단어가 많이 포함되어 있는지, 텍스트가 종종 매우 유사한지 등입니다. 이를 고품질 방식으로 평가하는 것은 실제로 매우 복잡하므로 누군가 이미 이 작업을 수행했는지 궁금합니다.
숫자만 받는 것이 좋을 것입니다. 그러면 0은 동일함을 의미하고 숫자가 높으면 전혀 유사하지 않음을 의미할 수 있습니다.
답변1
diffstat
정상이라고 읽는 것이 있습니다diff
출력을 읽고 일부 통계를 더 인쇄하는라인에 대해서만.
diff -u fileA fileB | diffstat
또는wdiff
처리하기 위해단어 차이.
wdiff -123 --statistics fileA fileB
좀 더 흥미로운 옵션을 찾으려면 매뉴얼 페이지를 읽어볼 수도 있습니다.