의도적으로 Excel에서 데이터를 오염시킵니다.

의도적으로 Excel에서 데이터를 오염시킵니다.

나는 이 질문에 대한 답을 온라인에서 찾기 위해 애쓰고 있습니다. 의도적으로 오염시키려는 데이터 세트가 있습니다. 연관 규칙을 마이닝하고 있으며 몇 가지 테스트를 실행하고 싶습니다. 이상적으로는 셀의 x%를 무작위로 선택하고 이를 "Null" 또는 빈 공간으로 바꾸고 싶습니다. 이 작업을 수행하는 방법에 대한 권장 사항이 있는 사람이 있습니까?

감사해요

답변1

그냥 파이썬을 사용하세요...

'오래된' xls 파일인 경우 사용xlrd그리고xlwt

'새' xlsx 파일인 경우 다음을 사용하세요.openpyxl

openpyxl을 사용한 예

30개의 무작위 셀이 제거되었습니다.

import openpyxl as xl
import random

wb = xl.open("Book1.xlsx")
ws = wb.worksheets[0]
for n in range(30):
    r = random.randint(1,ws.max_row)      #  Note row indexes start at 1
    c = random.randint(0,ws.max_column-1) #  Note column indexes start at 0
    ws[r][c].value=None
wb.save("Book1b.xlsx")

관련 정보