두 파일 간의 차이점 평가

두 파일 간의 차이점 평가

Unix에서 두 텍스트 파일의 유사성 또는 유사성을 평가할 수 있는 방법이 있습니까?

에 대해 알고 있지만 diff차이점 자체를 알려줄 뿐입니다. 내가 추구하는 것은 단지 답변, 즉 두 텍스트가 얼마나 유사한지에 대한 일종의 평가를 받는 것입니다. 동일한 단어가 많이 포함되어 있는지, 텍스트가 종종 매우 유사한지 등입니다. 이를 고품질 방식으로 평가하는 것은 실제로 매우 복잡하므로 누군가 이미 이 작업을 수행했는지 궁금합니다.

숫자만 받는 것이 좋을 것입니다. 그러면 0은 동일함을 의미하고 숫자가 높으면 전혀 유사하지 않음을 의미할 수 있습니다.

답변1

diffstat정상이라고 읽는 것이 있습니다diff 출력을 읽고 일부 통계를 더 인쇄하는라인에 대해서만.

diff -u fileA fileB | diffstat

또는wdiff 처리하기 위해단어 차이.

wdiff -123 --statistics fileA fileB

좀 더 흥미로운 옵션을 찾으려면 매뉴얼 페이지를 읽어볼 수도 있습니다.

관련 정보