Данные, которые я сравниваю, представляют собой набор каталогизированных элементов (90 тыс. элементов) со старым списком элементов, которые, как мы считали, отсутствовали (около 11 тыс.). Мне нужно посмотреть, есть ли какие-либо «отсутствующие» элементы в каталогизированном наборе. Я попытался найти дубликаты с помощью условного форматирования, но основные идентификаторы (номера вызовов) слишком запутаны. например
«Y 4 Ex 7/11:W 19/2/v.1-3» находится в каталогизированном наборе.
и Y 4.EX 7/11:W 19/2/V.1
Y 4.EX 7/11:W 19/2/V.2
Y 4.EX 7/11:W 19/2/V.3 — значения в отсутствующем наборе.
Я использую нечеткий поиск для поиска близких дубликатов.https://www.microsoft.com/en-us/download/details.aspx?id=15011 Согласно инструкциям по использованию надстройки нечеткого поиска, я создал две таблицы на отдельных вкладках/листах, "cataloged_subsetA" и "missing_items". Затем я установил количество совпадений на 1 и порог схожести на 0,85. Я сравниваю чуть более 4700 строк, и программа перестает отвечать. Я проверил использование памяти и подозреваю, что достигаю порога памяти, но не получаю сообщений об ошибках или чего-либо еще, говорящего об этом.
Результаты сравнения нечеткого поиска должны заполнить пустой лист (или таблицу) столбцами из «Cataloged_subsetA» и столбцами из «missing_items», а также новым столбцом «similarity» со значением от 0 до 1.
Я пробовал установить конфигурацию на «UseApproximateIndexing» - True. Я пробовал создать таблицу для вывода; я пробовал использовать пустой рабочий лист. Мои таблицы содержат только строки с данными, а не бесконечный столбец. У меня нет пустых или нулевых ячеек ни в одной из таблиц. Я также пробовал использовать меньшую таблицу как «левую таблицу», а большую как «правую таблицу» и наоборот. Я удалил и переустановил надстройку Fuzzy Matching.
Я попробовал создать подмножество из 30 000 строк (номера вызовов AE), сравнил его с набором из 11 000 и получил те же результаты: не отвечает после завершения примерно 4700 строк. Затем я еще больше уменьшил его, набор из 12 000 до набора из 11 000. Тот же результат.
Учитывая отсутствие прозрачности со стороны Microsoft в отношении кода этой надстройки и множество оставшихся без ответа вопросов на других сайтах сообщества, я подозреваю, что мне, возможно, придется отказаться от надстройки и найти другой способ сравнения этих наборов.
Образец "каталогизированный_подмножествоA" Образец "missing_items" Пример желаемых результатов