awkを並列で使用する

Question 1

システムにプログラムがあるかどうか確認してくださいparallel。(GNU から来ている可能性があります。) ある場合は、その使い方を調べてください。そうでない場合は、
を実行して、出力をファイルに書き込みますfind。テキストエディター、またはなどのツールを使用したスクリプトを使用してhead、そのファイルを (ほぼ) 同じ数の行 (つまり、見つかったファイルと同じ数を参照) を持つ 16 個のフラグメントファイルに分割します。次に、awk … | paste … | bcフラグメントファイルごとに 1 つずつ、合計 16 個のパイプラインを開始します (そして、16 個の結果を追加します)。

awkは文字列の出現回数をカウントするためにgrep -c特別に設計されているのに、なぜを使用しているのか疑問に思います。

Answer

システムにプログラムがあるかどうか確認してくださいparallel。(GNU から来ている可能性があります。) ある場合は、その使い方を調べてください。そうでない場合は、
を実行して、出力をファイルに書き込みますfind。テキストエディター、またはなどのツールを使用したスクリプトを使用してhead、そのファイルを (ほぼ) 同じ数の行 (つまり、見つかったファイルと同じ数を参照) を持つ 16 個のフラグメントファイルに分割します。次に、awk … | paste … | bcフラグメントファイルごとに 1 つずつ、合計 16 個のパイプラインを開始します (そして、16 個の結果を追加します)。

awkは文字列の出現回数をカウントするためにgrep -c特別に設計されているのに、なぜを使用しているのか疑問に思います。

Question 2

GNU parallelはxargsとかなり互換性があるので、あなたの場合はそれを置き換えることができます。useの出現回数を次のようにカウントするだけsubstringならgrep -c、スコット提案:

sudo find /mnt2/preprocessed/preprocessed/mo* | 
  sudo parallel grep -c source | paste -sd+ | bc

GNU/Linux の一部のバージョンでは、GNU parallel が「Tollef の parallel」互換モードでインストールされることに注意してください。parallel のコマンドライン引数を追加することで、これを変更できます--gnu。変更を永続的にするには、を追加し--gnuます~/.parallel/config。

Answer

GNU parallelはxargsとかなり互換性があるので、あなたの場合はそれを置き換えることができます。useの出現回数を次のようにカウントするだけsubstringならgrep -c、スコット提案:

sudo find /mnt2/preprocessed/preprocessed/mo* | 
  sudo parallel grep -c source | paste -sd+ | bc

GNU/Linux の一部のバージョンでは、GNU parallel が「Tollef の parallel」互換モードでインストールされることに注意してください。parallel のコマンドライン引数を追加することで、これを変更できます--gnu。変更を永続的にするには、を追加し--gnuます~/.parallel/config。

awkを並列で使用する

答え1

答え2

関連情報