將大量文字檔案合併為一個大文字文件

Question 1

在：

cat */* > bigtextfile.txt

shell 將擴展*/*到（非隱藏）匹配檔案的排序列表，並將cat使用這些檔案路徑作為參數執行。

cat將依序開啟每個文件並將從文件中讀取的內容寫入其標準輸出。cat記憶體中一次不會容納多個充滿資料的緩衝區（大約幾千位元組）。

但您可能會遇到的一個問題是，參數列表cat太大，以至於達到了execve()系統呼叫參數大小的限制。因此，您可能需要拆分該文件列表並運行cat多次。

您可以使用xargs它（這裡使用 GNU 或 BSDxargs作為非標準-r和-0選項）：

printf '%s\0' */* | xargs -r0 cat -- > big-file.txt

（因為printf是內建在shell中的，所以不經過系統execve調用，所以沒有經過它的限制）。

或find建立文件列表並根據需要運行盡可能多的 cat 命令：

find . -mindepth 2 -maxdepth 2 -type f -exec cat {} + > big-file.txt

或便攜式：

find . -path './*/*' -prune -type f -exec cat {} + > big-file.txt

（請注意，與相反*/*，它將包含隱藏文件（以及隱藏目錄中的文件），而不是在目錄的符號鏈接中查找文件，並且文件列表不會被排序）。

如果在最新版本的 Linux 上，您可以透過執行下列操作來取消參數大小的限制：

ulimit -s unlimited
cat -- */* > big-file.txt

透過zsh，您也可以使用zargs：

autoload zargs
zargs -- */* -- cat > big-file.txt

透過ksh93，您可以使用command -x：

command -x cat -- */* > big-file.txt

所有這些都執行相同的操作，拆分文件列表並cat根據需要運行盡可能多的命令。

再次，您可以使用內建命令來ksh93繞過限制：execve()cat

command /opt/ast/bin/cat -- */* > big-file.txt

Answer

在：

cat */* > bigtextfile.txt