GNU 並列が CPU をすべて利用していない

Question 1

Mark の回答は正しく、完全にサポートされていますが、新しい機能を試してみるのもよいかもしれません。

cat file | parallel --pipe ...

最大で約 100 MB/秒になります。

新しい実験的なオプション --pipepart は 2 GB/秒を超える速度を実現しますが、in.txt が実際の (シーク可能な) ファイルである必要があります。

parallel -a in.txt --block 100M --pipepart python parse.py

Answer

Mark の回答は正しく、完全にサポートされていますが、新しい機能を試してみるのもよいかもしれません。

cat file | parallel --pipe ...

最大で約 100 MB/秒になります。

新しい実験的なオプション --pipepart は 2 GB/秒を超える速度を実現しますが、in.txt が実際の (シーク可能な) ファイルである必要があります。

parallel -a in.txt --block 100M --pipepart python parse.py

Question 2

これ-N1により、1 行につき 1 つのプロセスが作成されます。並列セットアップのオーバーヘッドが発生しています。Python スクリプトを変更して、複数の行を処理できるようにする必要があります。その後、cat in.txt | parallel --pipe python parse.pyCPU を最大限に活用する必要があります。

Answer

これ-N1により、1 行につき 1 つのプロセスが作成されます。並列セットアップのオーバーヘッドが発生しています。Python スクリプトを変更して、複数の行を処理できるようにする必要があります。その後、cat in.txt | parallel --pipe python parse.pyCPU を最大限に活用する必要があります。

GNU 並列が CPU をすべて利用していない

答え1

答え2

関連情報