awk 特定の列内の同じ内容の行をすべて別のファイルに分離する方法

Question 1

これは、あらゆる UNIX ボックス上の任意のシェルで POSIX ソートと任意の awk を使用して効率的に動作します。

$ sort -t, -k4,4 test.csv |
    awk -F, '$4!=prev{close(out); out="File"$4; prev=$4} {print > out}'

$ head -n 20 File*
==> FileA <==
1,2,3,A,5

==> FileB <==
1,2,3,B,5
1,2,3,B,5

==> FileD <==
1,2,3,D,5

==> FileE <==
1,2,3,E,5

==> FileZ <==
1,2,3,Z,5

注意すべき点:

いくつかのawkでは出力リダイレクトの右側の式を括弧で囲む必要があり、
いくつかのawkは、出力ファイルを閉じずに、出力ファイルが12個程度を超えると、開いているファイルを多く保持しようとすると失敗します。
複数の出力ファイルを開いたままにしておくことは、それが可能なすべてのawkでは非常に非効率的であり、
これを考慮して出力ファイルを行ごとに閉じることは、すべての awk で非常に非効率的になります。

Answer

これは、あらゆる UNIX ボックス上の任意のシェルで POSIX ソートと任意の awk を使用して効率的に動作します。

$ sort -t, -k4,4 test.csv |
    awk -F, '$4!=prev{close(out); out="File"$4; prev=$4} {print > out}'

$ head -n 20 File*
==> FileA <==
1,2,3,A,5

==> FileB <==
1,2,3,B,5
1,2,3,B,5

==> FileD <==
1,2,3,D,5

==> FileE <==
1,2,3,E,5

==> FileZ <==
1,2,3,Z,5

注意すべき点:

いくつかのawkでは出力リダイレクトの右側の式を括弧で囲む必要があり、
いくつかのawkは、出力ファイルを閉じずに、出力ファイルが12個程度を超えると、開いているファイルを多く保持しようとすると失敗します。
複数の出力ファイルを開いたままにしておくことは、それが可能なすべてのawkでは非常に非効率的であり、
これを考慮して出力ファイルを行ごとに閉じることは、すべての awk で非常に非効率的になります。

Question 2

出力ファイル名のフィールドを使用するだけでよいはずです。簡単な解決策:

awk -F, '{print > ("file_" $4 ".csv")}' Test.csv

これは少なくとも GNU awk では動作しfile_A.csv、file_B.csvなどを作成します。これにより、すべての出力ファイルが開いたままになり、特にプロセスごとのオープンファイル制限に達した場合は、出力ファイルが増えるほど速度が低下することに注意してください。

-F,フィールド区切り文字をカンマに設定します。

示されたスクリプトが何を実行するのかわかりません。

Answer

出力ファイル名のフィールドを使用するだけでよいはずです。簡単な解決策:

awk -F, '{print > ("file_" $4 ".csv")}' Test.csv

これは少なくとも GNU awk では動作しfile_A.csv、file_B.csvなどを作成します。これにより、すべての出力ファイルが開いたままになり、特にプロセスごとのオープンファイル制限に達した場合は、出力ファイルが増えるほど速度が低下することに注意してください。

-F,フィールド区切り文字をカンマに設定します。

示されたスクリプトが何を実行するのかわかりません。

Question 3

このようなもの：

$ awk -F, '{ print $0 >> "file-" $4 ".txt"; }' ./tmp.txt

@ilkkachu の回答にあるように、 flag は-Fフィールド区切り文字をデフォルトの空白文字からコンマに変更します。が存在する場合にファイルを上書きしないように、>>の代わりにを使用する必要があります。>

Answer

このようなもの：

$ awk -F, '{ print $0 >> "file-" $4 ".txt"; }' ./tmp.txt

@ilkkachu の回答にあるように、 flag は-Fフィールド区切り文字をデフォルトの空白文字からコンマに変更します。が存在する場合にファイルを上書きしないように、>>の代わりにを使用する必要があります。>

Question 4

パイソン

#!/usr/bin/python
uni=[]
k=open('file.txt','r')
for i in k:
    
    g=i.split(",")[3].strip()
    if g not in uni:
        uni.append(g)



for m in uni:
    f=open("{0}.txt".format(m),'w')
    l=open('file.txt','r')
    for d in l:
        if m in d.split(",")[3].strip():
            f.write(d)

awkではすでに最良の解決策が提供されているが、これは私の試みである

for i in `awk -F "," '{if(!seen[$4]++)print $4}' file.txt`; do awk -v i="$i" -F "," '$4==i{print $0}' file.txt >$i.txt; done

Answer

パイソン

#!/usr/bin/python
uni=[]
k=open('file.txt','r')
for i in k:
    
    g=i.split(",")[3].strip()
    if g not in uni:
        uni.append(g)



for m in uni:
    f=open("{0}.txt".format(m),'w')
    l=open('file.txt','r')
    for d in l:
        if m in d.split(",")[3].strip():
            f.write(d)

awkではすでに最良の解決策が提供されているが、これは私の試みである

for i in `awk -F "," '{if(!seen[$4]++)print $4}' file.txt`; do awk -v i="$i" -F "," '$4==i{print $0}' file.txt >$i.txt; done

awk 特定の列内の同じ内容の行をすべて別のファイルに分離する方法

答え1

答え2

答え3

答え4

関連情報