Los datos que estoy comparando son un conjunto de elementos catalogados (90.000 elementos) con una lista antigua de elementos que creíamos que faltaban (alrededor de 11.000). Necesito ver si alguno de los elementos "faltantes" realmente aparece en el conjunto catalogado. Intenté encontrar duplicados usando formato condicional, pero los identificadores principales (números de clasificación) son demasiado confusos. Por ejemplo
"Y 4 Ex 7/11:W 19/2/v.1-3" está en el conjunto catalogado.
y Y 4.EX 7/11:W 19/2/V.1
Y 4.EX 7/11:W 19/2/V.2
Y 4.EX 7/11:W 19/2/V.3 son valores del conjunto que falta.
Estoy usando la búsqueda difusa para encontrar casi duplicados.https://www.microsoft.com/en-us/download/details.aspx?id=15011 Según las instrucciones para usar el complemento de búsqueda difusa, creé dos tablas en pestañas/hojas de trabajo separadas, "cataloged_subsetA" y "missing_items". Luego establecí el número de coincidencias en 1 y el umbral de similitud en 0,85. Llego a poco más de 4700 filas comparadas y el programa deja de responder. Verifiqué el uso de la memoria y sospecho que estoy alcanzando el umbral de memoria, pero no recibo mensajes de error ni nada que diga eso.
Los resultados de la comparación de búsqueda difusa deben completar una hoja (o tabla) en blanco con las columnas de "Cataloged_subsetA" y las columnas de "missing_items" y una nueva columna "similitud" con un valor entre 0 y 1.
Intenté establecer la configuración en "UseAproximateIndexing" - Verdadero. Intenté crear una tabla para el resultado; Intenté usar una hoja de trabajo en blanco. Mis tablas solo contienen filas con datos, no una columna interminable. No tengo celdas nulas o vacías en ninguna de las tablas. También intenté usar la tabla más pequeña como "tabla izquierda" y la tabla más grande como "tabla derecha" y viceversa. Desinstalé y reinstalé el complemento Fuzzy Matching.
Intenté crear un subconjunto de 30.000 filas (números de identificación AE), lo comparé con el conjunto de 11.000 y obtuve los mismos resultados: no respondí después de completar aproximadamente 4700 filas. Luego lo reduje aún más, de un conjunto de 12.000 a un conjunto de 11.000. Mismo resultado.
Dada la falta de transparencia por parte de Microsoft con respecto al código de este complemento y las muchas preguntas sin respuesta en otros sitios de la comunidad, sospecho que es posible que deba renunciar al complemento y encontrar otra forma de comparar estos conjuntos.
Ejemplo de "cataloged_subsetA" Ejemplo de "elementos_faltantes" Muestra de resultados deseados