如何在 pyspark 中讀取大型 zip 檔案

如何在 pyspark 中讀取大型 zip 檔案

我在 s3 上確實有 n 個 .zip 文件,我想處理這些文件並從中提取一些數據。 zip 檔案包含單一 json 檔案。在spar中,我們可以讀取.gz文件,但我沒有找到任何方法來讀取.zip檔案中的資料。有人可以幫我解決如何使用 python 透過 Spark 處理大型 zip 檔案嗎?我遇到了一些像 newAPIHadoopFile 這樣的選項,但沒有得到任何運氣,也沒有找到在 pyspark 中實現它們的方法。請注意,zip 檔案大於 1G,有些甚至達到 20G。

相關內容