dividir um arquivo csv grande

dividir um arquivo csv grande

Tenho um game_data.csvarquivo com mais de um milhão de linhas (tamanho de 70 MB). Estou escrevendo um aplicativo que fará algum processamento no CSV e gravará os dados CSV em um banco de dados.

Enquanto estou desenvolvendo o aplicativo, gostaria de usar um CSV menor. Qual comando do Linux posso executar para capturar as primeiras 1.500 linhas do CSV e colocá-las em um arquivo CSV separado subset_game_data.csv?

Estou no Manjaro Linux (caso isso importe).

Responder1

Se os dados não contiverem novas linhas, isso será feito trivialmente com head -n 1500 game_data.csv > subset_game_data.csv.

Se os dadosfazcontém novas linhas, você precisa analisá-lo corretamente. Use qualquer ferramenta como Libreoffice Calc ou um script python.csvkitpode fazer o truque com algo como

csvsql --query "select * from data limit 1500" game_data.csv > subset_game_data.csv

informação relacionada