テーブルの値でファイルを連結する

Question 1

以下のスクリプトでは、連結するすべてのファイルがパターンに一致することを前提としています*.tsv。すべてがに一致することが分かっている場合はABC*.tsv、スクリプトの先頭での代わりにそのパターンを使用できます*.tsv。

*.tsvさらに、スクリプトは、特定のグループに入るすべてのファイル名が、展開されるリストの連続したサブリストとして生成されることを想定しています。

#!/bin/sh

set -- *.tsv

while read -r group first last; do
        collect=false

        for name do
                if ! "$collect"; then
                        [ "$name" = "$first.tsv" ] || continue
                        collect=true
                fi

                if "$collect"; then
                        cat -- "$name"
                        [ "$name" = "$last.tsv" ] && break
                fi
        done >"$group.tsv"

done <info.tsv

スクリプトは、位置パラメータのリストを、に一致する名前のリストに設定します*.tsv。次に、から各行の 3 つのフィールドをinfo.tsv変数group、first、に読み込みますlast。

この方法で読み取られた各行についてinfo.tsv、位置パラメータのリストがスキャンされ、グループの最初の名前に一致する名前が検索されます。最初の名前が見つかると、フラグが設定され、collectスクリプトのロジックに、位置パラメータのリストで指定されたファイルから、リスト内の現在の位置からデータの収集を開始するように指示します。これは、グループの最後の名前に対応する名前に遭遇すると終了します。

trueここで、とは単なる文字列ではなくコマンドとして使用されていることに注意してくださいfalse。変数に格納された値$collectはで実行されるため、スクリプトはまたはのif ! "$collect"2 つのシェル組み込みコマンドのいずれかを実行します。シェルには、他の言語 (Python など) にあるような true または false を表す特別なキーワードはありません。truefalse

テスト:

$ ls
script

$ touch ABC{1234001..1234030}.tsv
$ for name in ABC*.tsv; do printf 'Name: %s\n' "$name" >"$name"; done
$ cat ABC1234015.tsv
Name: ABC1234015.tsv

$ cat >info.tsv <<END_DATA
group1 ABC1234001 ABC1234010
group2 ABC1234025 ABC1234030
END_DATA

$ ./script
$ cat group1.tsv
Name: ABC1234001.tsv
Name: ABC1234002.tsv
Name: ABC1234003.tsv
Name: ABC1234004.tsv
Name: ABC1234005.tsv
Name: ABC1234006.tsv
Name: ABC1234007.tsv
Name: ABC1234008.tsv
Name: ABC1234009.tsv
Name: ABC1234010.tsv
$ cat group2.tsv
Name: ABC1234025.tsv
Name: ABC1234026.tsv
Name: ABC1234027.tsv
Name: ABC1234028.tsv
Name: ABC1234029.tsv
Name: ABC1234030.tsv

この回答へのコメントで述べたように、私が個人的にこのスクリプトを開発するには、スクリプトを次のようになります。

#!/bin/sh

while read -r group first last; do
        collect=false

        for name do
                filename=$( basename "$name" )

                if ! "$collect"; then
                        [ "$filename" = "$first.tsv" ] || continue
                        collect=true
                fi

                if "$collect"; then
                        cat -- "$name"
                        [ "$filename" = "$last.tsv" ] && break
                fi
        done >"$group.tsv"

done

set先頭のコマンドが削除されていること (これはコマンドライン引数に置き換えられます)、およびリダイレクトが削除されていること (これはコマンドラインのリダイレクトに置き換えられます) に注意してください。また、コマンドラインで指定されたパス名のファイル名コンポーネントを保持する変数もinfo.tsv導入しました。filename

次に、次のようにスクリプトを実行します。

$ ./script ABC*.tsv <info.tsv

私がこれによって実現したのは、入力グループリストがどこに保存されているか、またはその名前が何であるかに依存せず、ABCファイルの名前 (ファイル名のサフィックスがある限り.tsv) や保存場所を気にしないスクリプトです。

Answer