
この質問に対する答えをオンラインで見つけるのに苦労しています。意図的に汚染したいデータセットがあります。関連ルールをマイニングしていて、いくつかのテストを実行したいと考えています。理想的には、セルの x% をランダムに選択し、それらを「Null」または空白に置き換えます。これを行う方法について、何か推奨事項はありますか?
ありがとう
答え1
Python を使用するだけです...
新しいxlsxファイルの場合は、オープンpyxl
openpyxl を使用した例
30 個のランダムセルが消滅しました
import openpyxl as xl
import random
wb = xl.open("Book1.xlsx")
ws = wb.worksheets[0]
for n in range(30):
r = random.randint(1,ws.max_row) # Note row indexes start at 1
c = random.randint(0,ws.max_column-1) # Note column indexes start at 0
ws[r][c].value=None
wb.save("Book1b.xlsx")