我正在比較的資料是一組編目項目(90k 項目)以及我們認為缺少的舊項目清單(大約 11k)。我需要查看是否有任何“丟失”的項目實際上出現在編目集中。我嘗試使用條件格式尋找重複項,但主要識別碼(索書號)太混亂了。例如
「Y 4 Ex 7/11:W 19/2/v.1-3」位於目錄集。
和 Y 4.EX 7/11:W 19/2/V.1
Y 4.EX 7/11:W 19/2/V.2
Y 4.EX 7/11:W 19/2/V.3 是缺失集中的值。
我正在使用模糊查找來查找附近的重複項。https://www.microsoft.com/en-us/download/details.aspx?id=15011 根據使用模糊查找插件的說明,我在單獨的選項卡/工作表中建立了兩個表,「cataloged_subsetA」和「missing_items」。然後我將匹配數設為 1,並將相似度閾值設為 0.85。我比較了 4,700 多行,程式停止回應。我檢查了記憶體使用情況,懷疑我達到了記憶體閾值,但沒有收到錯誤訊息或任何這樣的資訊。
模糊查找比較的結果應使用「Cataloged_subsetA」中的列和「missing_items」中的列以及值介於 0 和 1 之間的新列「相似度」填入空白表(或表)
我嘗試將配置設定為“UseApproximateIndexing” - True。我嘗試為輸出創建一個表;我嘗試使用空白工作表。我的表僅包含包含資料的行,而不包含無盡的列。我在兩個表中都沒有任何 null 或空單元格。我還嘗試使用較小的表格作為“左表”,使用較大的表格作為“右表”,反之亦然。我卸載並重新安裝了模糊匹配插件。
我嘗試創建 30,000 行的子集(呼叫號 AE),將其與 11,000 行的集合進行比較,並得到相同的結果:在完成大約 4700 行後沒有回應。然後我進一步篩選,從 12,000 組到 11,000 組。相同的結果。
鑑於 Microsoft 對該加載項的程式碼缺乏透明度,並且其他社區網站上存在許多未解答的問題,我懷疑我可能需要放棄該加載項並尋找另一種方法來比較這些集合。