Excel のデータを意図的に汚染する

Excel のデータを意図的に汚染する

この質問に対する答えをオンラインで見つけるのに苦労しています。意図的に汚染したいデータセットがあります。関連ルールをマイニングしていて、いくつかのテストを実行したいと考えています。理想的には、セルの x% をランダムに選択し、それらを「Null」または空白に置き換えます。これを行う方法について、何か推奨事項はありますか?

ありがとう

答え1

Python を使用するだけです...

古いxlsファイルの場合はxlrdそしてXLWT の

新しいxlsxファイルの場合は、オープンpyxl

openpyxl を使用した例

30 個のランダムセルが消滅しました

import openpyxl as xl
import random

wb = xl.open("Book1.xlsx")
ws = wb.worksheets[0]
for n in range(30):
    r = random.randint(1,ws.max_row)      #  Note row indexes start at 1
    c = random.randint(0,ws.max_column-1) #  Note column indexes start at 0
    ws[r][c].value=None
wb.save("Book1b.xlsx")

関連情報