使用並行將許多目錄拆分為子目錄或並行化此任務

Question 1

問題是 shell 擴充後命令列可以佔用的位元組數有上限，這個限制取決於系統的限制

getconf ARG_MAX

mv {}因此，只要達到最大限制，參數的數量就會根據輸入檔名的長度而改變。

避免這種限制同時不放棄使用並行的解決方案是將任務分為兩個階段

ls -tr | parallel -N 100000 --pipe -k "mkdir dir_{#}; parallel -X mv -t dir_{#}"

說明

第一階段使用選項--pipe將標準輸入拆分為確定數量的較小的標準輸入，每行包含由選項指定的 n 行-N。您可以透過這個例子觀察一下效果
```
seq 1000000 | parallel -N 100000 --pipe wc -l
```
給出了 100000 處的精確分割
```
100000
100000
100000
...
```
在第二階段，內部平行採取較小的標準輸入作為執行作業的新標準輸入，該-X選項會插入命令列長度允許的盡可能多的參數
```
mkdir dir_{#}; parallel -X mv -t dir_{#}
```

Answer

問題是 shell 擴充後命令列可以佔用的位元組數有上限，這個限制取決於系統的限制

getconf ARG_MAX

mv {}因此，只要達到最大限制，參數的數量就會根據輸入檔名的長度而改變。

避免這種限制同時不放棄使用並行的解決方案是將任務分為兩個階段

ls -tr | parallel -N 100000 --pipe -k "mkdir dir_{#}; parallel -X mv -t dir_{#}"

說明

第一階段使用選項--pipe將標準輸入拆分為確定數量的較小的標準輸入，每行包含由選項指定的 n 行-N。您可以透過這個例子觀察一下效果
```
seq 1000000 | parallel -N 100000 --pipe wc -l
```
給出了 100000 處的精確分割
```
100000
100000
100000
...
```
在第二階段，內部平行採取較小的標準輸入作為執行作業的新標準輸入，該-X選項會插入命令列長度允許的盡可能多的參數
```
mkdir dir_{#}; parallel -X mv -t dir_{#}
```

Question 2

這個問題涉及大量IO。我懷疑這parallel在這種情況下是否真的有用。

無論如何，我建議您考慮“傳統”方法：

 mkdir dir_{1..10}
 ls -tr | nl | \
    awk '$2 !~ /^dir_/ {i=1+int($1/100000); print $2 | "xargs mv -t dir_"i}'

在哪裡

如果可能的話，也比較各自的時間：（time ....並與我們分享結果☺）

Answer

這個問題涉及大量IO。我懷疑這parallel在這種情況下是否真的有用。

無論如何，我建議您考慮“傳統”方法：

 mkdir dir_{1..10}
 ls -tr | nl | \
    awk '$2 !~ /^dir_/ {i=1+int($1/100000); print $2 | "xargs mv -t dir_"i}'

在哪裡

如果可能的話，也比較各自的時間：（time ....並與我們分享結果☺）

相關內容