awk如何在不同文件中分隔給定列中具有相同內容的所有行

Question 1

這將在每個 UNIX 機器上的任何 shell 中使用 POSIX 排序和任何 awk 有效地工作：

$ sort -t, -k4,4 test.csv |
    awk -F, '$4!=prev{close(out); out="File"$4; prev=$4} {print > out}'

$ head -n 20 File*
==> FileA <==
1,2,3,A,5

==> FileB <==
1,2,3,B,5
1,2,3,B,5

==> FileD <==
1,2,3,D,5

==> FileE <==
1,2,3,E,5

==> FileZ <==
1,2,3,Z,5

需要注意的一些事項：

有些 awks 需要在輸出重定向右側的表達式周圍放置括號，並且
如果您不關閉輸出文件，某些 awks 會失敗，因此一旦超過十幾個輸出文件，就會嘗試保留太多打開的文件，並且
在所有允許的 awks 中，保留多個開啟的輸出檔案效率非常低，且
在所有 awks 中，逐行關閉輸出檔來解決這個問題將非常低效。

Answer

這將在每個 UNIX 機器上的任何 shell 中使用 POSIX 排序和任何 awk 有效地工作：

$ sort -t, -k4,4 test.csv |
    awk -F, '$4!=prev{close(out); out="File"$4; prev=$4} {print > out}'

$ head -n 20 File*
==> FileA <==
1,2,3,A,5

==> FileB <==
1,2,3,B,5
1,2,3,B,5

==> FileD <==
1,2,3,D,5

==> FileE <==
1,2,3,E,5

==> FileZ <==
1,2,3,Z,5

需要注意的一些事項：

有些 awks 需要在輸出重定向右側的表達式周圍放置括號，並且
如果您不關閉輸出文件，某些 awks 會失敗，因此一旦超過十幾個輸出文件，就會嘗試保留太多打開的文件，並且
在所有允許的 awks 中，保留多個開啟的輸出檔案效率非常低，且
在所有 awks 中，逐行關閉輸出檔來解決這個問題將非常低效。

Question 2

您應該能夠僅使用輸出檔案名稱中的欄位。一個簡單的解決方案：

awk -F, '{print > ("file_" $4 ".csv")}' Test.csv

這至少適用於 GNU awk，並創建等file_A.csv。file_B.csv

-F,將欄位分隔符號設定為逗號。

我不確定你展示的腳本應該做什麼。

Answer

您應該能夠僅使用輸出檔案名稱中的欄位。一個簡單的解決方案：

awk -F, '{print > ("file_" $4 ".csv")}' Test.csv

這至少適用於 GNU awk，並創建等file_A.csv。file_B.csv

-F,將欄位分隔符號設定為逗號。

我不確定你展示的腳本應該做什麼。

Question 3

像這樣的東西：

$ awk -F, '{ print $0 >> "file-" $4 ".txt"; }' ./tmp.txt

正如 @ilkkachu 的回答所提到的，flag-F是將欄位分隔符號從預設的空白字元變更為逗號。您應該使用 >>而不是 > 這樣就不會覆蓋該文件（如果存在）。

Answer

像這樣的東西：

$ awk -F, '{ print $0 >> "file-" $4 ".txt"; }' ./tmp.txt

正如 @ilkkachu 的回答所提到的，flag-F是將欄位分隔符號從預設的空白字元變更為逗號。您應該使用 >>而不是 > 這樣就不會覆蓋該文件（如果存在）。

Question 4

Python

#!/usr/bin/python
uni=[]
k=open('file.txt','r')
for i in k:
    
    g=i.split(",")[3].strip()
    if g not in uni:
        uni.append(g)



for m in uni:
    f=open("{0}.txt".format(m),'w')
    l=open('file.txt','r')
    for d in l:
        if m in d.split(",")[3].strip():
            f.write(d)

awk 已經提供了最好的解決方案，這只是我的嘗試

for i in `awk -F "," '{if(!seen[$4]++)print $4}' file.txt`; do awk -v i="$i" -F "," '$4==i{print $0}' file.txt >$i.txt; done

Answer

Python

#!/usr/bin/python
uni=[]
k=open('file.txt','r')
for i in k:
    
    g=i.split(",")[3].strip()
    if g not in uni:
        uni.append(g)



for m in uni:
    f=open("{0}.txt".format(m),'w')
    l=open('file.txt','r')
    for d in l:
        if m in d.split(",")[3].strip():
            f.write(d)

awk 已經提供了最好的解決方案，這只是我的嘗試

for i in `awk -F "," '{if(!seen[$4]++)print $4}' file.txt`; do awk -v i="$i" -F "," '$4==i{print $0}' file.txt >$i.txt; done

awk如何在不同文件中分隔給定列中具有相同內容的所有行

答案1

答案2

答案3

答案4

相關內容