如何在 pyspark 中讀取大型 zip 檔案

2024-7-19 • tag-icon

我在 s3 上確實有 n 個 .zip 文件，我想處理這些文件並從中提取一些數據。 zip 檔案包含單一 json 檔案。在spar中，我們可以讀取.gz文件，但我沒有找到任何方法來讀取.zip檔案中的資料。有人可以幫我解決如何使用 python 透過 Spark 處理大型 zip 檔案嗎？我遇到了一些像 newAPIHadoopFile 這樣的選項，但沒有得到任何運氣，也沒有找到在 pyspark 中實現它們的方法。請注意，zip 檔案大於 1G，有些甚至達到 20G。

相關內容