故意污染 Excel 中的數據

故意污染 Excel 中的數據

我正在努力在網上找到這個問題的一些答案。我有一個數據集,我想故意污染它。我正在挖掘關聯規則,我想運行一些測試。理想情況下,我想隨機選擇 x% 的單元格並將其替換為“Null”或空白區域。有人對如何做到這一點有任何建議嗎?

謝謝

答案1

只需使用Python...

如果它是“舊”xls 文件,請使用xlrdxlwt

如果它是“新”xlsx 文件,請使用開放式pyxl

使用 openpyxl 的範例

30個隨機細胞被消滅

import openpyxl as xl
import random

wb = xl.open("Book1.xlsx")
ws = wb.worksheets[0]
for n in range(30):
    r = random.randint(1,ws.max_row)      #  Note row indexes start at 1
    c = random.randint(0,ws.max_column-1) #  Note column indexes start at 0
    ws[r][c].value=None
wb.save("Book1b.xlsx")

相關內容