pyspark에서 대용량 zip 파일을 읽는 방법

2024-7-9 • tag-icon

s3에 n개의 .zip 파일이 있는데, 이 파일에서 일부 데이터를 처리하고 추출하고 싶습니다. zip 파일에는 단일 json 파일이 포함되어 있습니다. 스파링에서는 .gz 파일을 읽을 수 있지만 .zip 파일 내의 데이터를 읽을 수 있는 방법을 찾지 못했습니다. 누군가 Python을 사용하여 Spark를 통해 대용량 zip 파일을 처리하는 방법을 알려주세요. newAPIHadoopFile과 같은 몇 가지 옵션을 발견했지만 운이 좋지 않았으며 pyspark에서 구현할 방법도 찾지 못했습니다. zip 파일의 크기는 1G보다 크며 일부 파일의 크기도 20G입니다.

관련 정보