私が比較しているデータは、カタログ化されたアイテムのセット (90,000 アイテム) と、欠落していると考えられていたアイテムの古いリスト (約 11,000 アイテム) です。カタログ化されたセットに「欠落」アイテムが実際に表示されているかどうかを確認する必要があります。条件付き書式を使用して重複を見つけようとしましたが、主要な識別子 (呼び出し番号) が乱雑すぎます。たとえば、
「Y 4 Ex 7/11:W 19/2/v.1-3」はカタログセットに含まれています。
および Y 4.EX 7/11:W 19/2/V.1
Y 4.EX 7/11:W 19/2/V.2
Y 4.EX 7/11:W 19/2/V.3 は欠損値セット内の値です。
ほぼ重複するものを見つけるために、あいまい検索を使用しています。https://www.microsoft.com/en-us/download/details.aspx?id=15011 あいまい検索アドインの使用法の説明に従って、別のタブ/ワークシートに「cataloged_subsetA」と「missing_items」という 2 つのテーブルを作成しました。次に、一致数を 1 に設定し、類似性のしきい値を 0.85 に設定しました。比較した行が 4,700 行を超えたところで、プログラムが応答しなくなりました。メモリ使用量をチェックしたところ、メモリしきい値に達していると思われますが、エラー メッセージやそのことを示すメッセージは表示されません。
あいまい検索比較の結果は、"Cataloged_subsetA" の列と "missing_items" の列、および 0 から 1 の間の値を持つ新しい列 "similarity" を含む空白のシート (またはテーブル) に入力されます。
構成を「UseapproximateIndexing」- True に設定してみました。出力用のテーブルを作成してみました。空のワークシートを使用してみました。テーブルにはデータのある行のみが含まれており、無限の列は含まれていません。どちらのテーブルにも null または空のセルはありません。また、小さい方のテーブルを「左のテーブル」として使用し、大きい方のテーブルを「右のテーブル」として使用したり、その逆を行ったりしてみました。ファジー マッチング アドインをアンインストールして再インストールしました。
30,000 行のサブセット (コール番号 AE) を作成し、それを 11,000 行のセットと比較したところ、同じ結果になりました。つまり、約 4700 行が完了した後に応答しなくなりました。その後、さらに絞り込み、12,000 行のセットを 11,000 行のセットにしました。結果は同じでした。
このアドインのコードに関する Microsoft の透明性の欠如と、他のコミュニティ サイトでの多くの未回答の質問を考慮すると、このアドインをあきらめて、これらのセットを比較する別の方法を見つける必要があるのではないかと思います。