ストリームを複製し、両方の部分をストリーミング方式で処理するにはどうすればよいですか?

Question 1

teeこれには置換を使用して処理できます>(...):

zcat my_data_file.gz |

# Count number of lines in stream
tee >(wc -l > /tmp/linecount) |

# Further processing
process_data.py

パイプは行の継続に使用でき、コマンド間にコメントを挿入できることに注意してください。これは、複雑なパイプラインを構築するときに便利な機能です。

Answer

teeこれには置換を使用して処理できます>(...):

zcat my_data_file.gz |

# Count number of lines in stream
tee >(wc -l > /tmp/linecount) |

# Further processing
process_data.py

パイプは行の継続に使用でき、コマンド間にコメントを挿入できることに注意してください。これは、複雑なパイプラインを構築するときに便利な機能です。

Question 2

完全に効率的ではありませんが、これを実現するには名前付きパイプ、これを使って作成できますmkififo(1)

質問の例では、

mkfifo /tmp/f

wc -l /tmp/f > /tmp/linecount &

zcat my_data_file.gz \
| tee /tmp/f \
| process_data.py &

wait

rm /tmp/f

&両方にとパイプラインが追加されていることに注意してくださいwc。これは、シェルがタスクをバックグラウンドにプッシュすることを意味します。 then の呼び出しは、waitすべてのバックグラウンドタスクが完了するまで待機します。両方のプロセスはほぼ同時に終了します。

プロセスの 1 つが大幅に遅い場合、そのプロセスteeの stdout パイプまたは書き込み先の名前付きパイプのいずれかがブロックされる可能性があるため、全体の速度が大幅に低下する可能性があることに注意してください。編集: また、二次プロセスが失敗した場合にパイプが破損して T 字型部分が終了するため、障害モードも増えました。

Answer

完全に効率的ではありませんが、これを実現するには名前付きパイプ、これを使って作成できますmkififo(1)

質問の例では、

mkfifo /tmp/f

wc -l /tmp/f > /tmp/linecount &

zcat my_data_file.gz \
| tee /tmp/f \
| process_data.py &

wait

rm /tmp/f

&両方にとパイプラインが追加されていることに注意してくださいwc。これは、シェルがタスクをバックグラウンドにプッシュすることを意味します。 then の呼び出しは、waitすべてのバックグラウンドタスクが完了するまで待機します。両方のプロセスはほぼ同時に終了します。

プロセスの 1 つが大幅に遅い場合、そのプロセスteeの stdout パイプまたは書き込み先の名前付きパイプのいずれかがブロックされる可能性があるため、全体の速度が大幅に低下する可能性があることに注意してください。編集: また、二次プロセスが失敗した場合にパイプが破損して T 字型部分が終了するため、障害モードも増えました。

ストリームを複製し、両方の部分をストリーミング方式で処理するにはどうすればよいですか?

答え1

答え2

関連情報