제가 비교하고 있는 데이터는 누락된 것으로 생각되는 이전 항목 목록(약 11,000개)과 함께 카탈로그된 항목 세트(90,000개 항목)입니다. "누락된" 항목이 실제로 카탈로그 세트에 나타나는지 확인해야 합니다. 조건부 서식을 사용하여 중복 항목을 찾으려고 시도했지만 주요 식별자(청구 번호)가 너무 지저분합니다. 예를 들어
"Y 4 Ex 7/11:W 19/2/v.1-3"은 카탈로그 세트에 있습니다.
및 Y 4.EX 7/11:W 19/2/V.1
Y 4.EX 7/11:W 19/2/V.2
Y 4.EX 7/11:W 19/2/V.3은 누락된 세트의 값입니다.
거의 중복된 항목을 찾기 위해 퍼지 조회를 사용하고 있습니다.https://www.microsoft.com/en-us/download/details.aspx?id=15011 퍼지 조회 추가 기능 사용에 대한 지침에 따라 별도의 탭/워크시트에 "cataloged_subsetA" 및 "missing_items"라는 두 개의 테이블을 만들었습니다. 그런 다음 일치 항목 수를 1로 설정하고 유사성 임계값을 0.85로 설정했습니다. 비교한 행이 4,700개가 조금 넘는데 프로그램이 응답을 멈춥니다. 메모리 사용량을 확인하고 메모리 임계값에 도달한 것으로 의심되지만 오류 메시지나 그런 내용은 나타나지 않습니다.
퍼지 조회 비교의 결과는 "Cataloged_subsetA"의 열과 "missing_items"의 열, 그리고 0과 1 사이의 값을 가진 새 열 "유사성"으로 빈 시트(또는 테이블)를 채워야 합니다.
구성을 "UseApproximateIndexing" - True로 설정해 보았습니다. 출력용 테이블을 만들어 보았습니다. 빈 워크시트를 사용해 보았습니다. 내 테이블에는 끝없는 열이 아닌 데이터가 있는 행만 포함되어 있습니다. 두 테이블 모두에 null 또는 빈 셀이 없습니다. 또한 작은 테이블을 "왼쪽 테이블"로 사용하고 큰 테이블을 "오른쪽 테이블"로 사용하거나 그 반대로 사용해 보았습니다. Fuzzy Matching 추가 기능을 제거하고 다시 설치했습니다.
30,000개 행(호출 번호 AE)의 하위 집합을 만들어 11,000개 행 집합과 비교한 결과 동일한 결과를 얻었습니다. 약 4,700개 행이 완료된 후에 응답하지 않았습니다. 그런 다음 12,000개 세트에서 11,000개 세트로 더 많이 선별했습니다. 같은 결과.
이 추가 기능의 코드와 관련하여 Microsoft의 투명성이 부족하고 다른 커뮤니티 사이트에 답변되지 않은 많은 질문이 있다는 점을 고려하면 추가 기능을 포기하고 이러한 세트를 비교할 다른 방법을 찾아야 할 수도 있습니다.