Atualmente, estou usando python com matplotlib para exibir mais de 440 k linhas, .csv
mas é necessário 11 sec
exibir apenas uma coluna. O meu .csv
tem sempre o mesmo formato. Existe uma maneira de analisá-lo mais rápido? Eu escolho armazenar todas as colunas em listas e exibi-las.
Aqui está o código que fiz:
csv_path = "C:/Users/mydata.csv"
csv_database = open(csv_path, delimiters=";")
data_dict = csv.DictReader(csv_database, delimiter=";")
current_row = 0
number_list = []
for row in data_dict:
current_row += 1 # Skip heading row
if current_row == 1:
continue
# Here I add to a list of strings already created
name_list.append(row["Name"]) # Assuming the header of the column is "Name"
# Here I add to a list of integer
if row['Number'] == 'NULL':
int_list.append(0)
elif row['Number'] != " ":
int_list.append(int(row['Number'])) # Assuming the header is "Number"
else:
int_list.append(0)
Responder1
Parece bom para mim. Isso funcionará para seus CSVs de pequena escala (menos de alguns milhares de linhas).
Quando tive que analisar arquivos CSV enormes (mais de 100 mil linhas) - usei o módulo Cassava que superou os módulos nativos por um longo caminho.
Dê uma olhadahttp://hackage.haskell.org/package/cassava
Espero que isto ajude