Os dados que estou comparando são um conjunto de itens catalogados (90 mil itens) com uma lista antiga de itens que pensávamos que estavam faltando (cerca de 11 mil). Preciso ver se algum dos itens "ausentes" realmente aparece no conjunto catalogado. Tentei encontrar duplicatas usando formatação condicional, mas os identificadores principais (números de telefone) são muito confusos. por exemplo
"Y 4 Ex 7/11:W 19/2/v.1-3" está no conjunto catalogado.
e Y 4.EX 7/11:W 19/2/V.1
Y 4.EX 7/11:W 19/2/V.2
Y 4.EX 7/11:W 19/2/V.3 são valores no conjunto ausente.
Estou usando a pesquisa difusa para encontrar quase duplicatas.https://www.microsoft.com/en-us/download/details.aspx?id=15011 De acordo com as instruções para usar o suplemento de pesquisa difusa, criei duas tabelas em guias/planilhas separadas, "cataloged_subsetA" e "missing_items". Em seguida, defino o número de correspondências como 1 e o limite de similaridade como 0,85. Chego a pouco mais de 4.700 linhas comparadas e o programa para de responder. Verifiquei o uso de memória e suspeito que estou atingindo o limite de memória, mas não recebo mensagens de erro nem nada dizendo isso.
Os resultados da comparação de pesquisa difusa devem preencher uma planilha (ou tabela) em branco com as colunas de "Cataloged_subsetA" e as colunas de "missing_items" e uma nova coluna "similarity" com um valor entre 0 e 1
Tentei definir a configuração para "Use approximateIndexing" - True. Tentei criar uma tabela para a saída; Tentei usar uma planilha em branco. Minhas tabelas contêm apenas as linhas com dados, não uma coluna infinita. Não tenho células nulas ou vazias em nenhuma das tabelas. Também tentei usar a tabela menor como "tabela esquerda" e a tabela maior como "tabela direita" e vice-versa. Desinstalei e reinstalei o complemento Fuzzy Matching.
Tentei criar um subconjunto de 30.000 linhas (números de chamada AE), comparei-o com o conjunto de 11.000 e obtive os mesmos resultados: não respondi após cerca de 4.700 linhas concluídas. Em seguida, reduzi ainda mais, de um conjunto de 12.000 para um conjunto de 11.000. Mesmo resultado.
Dada a falta de transparência da Microsoft em relação ao código deste suplemento e às muitas perguntas sem resposta em outros sites da comunidade, suspeito que talvez seja necessário desistir do suplemento e encontrar outra maneira de comparar esses conjuntos.
Amostra "cataloged_subsetA" Exemplo de "missing_items" Amostra de resultados desejados