我想按特定欄位對製表符分隔的文件進行排序,同時保留標題。我awk
按照這裡的描述使用awk 中的排序與 uniq,但我不知道該告訴誰sort
字段分隔符號是製表符。
玩具資料:
$ echo -e "head_1\thead_2\thead_3" > file.tsv
$ echo -e "aaa zzz\tc\t300" >> file.tsv
$ echo -e "bbb yyy ooo\ta\t100" >> file.tsv
$ echo -e "ccc xxx nnn\tb\t200" >> file.tsv
$ column -ts $'\t' file.tsv
head_1 head_2 head_3
aaa zzz c 300
bbb yyy ooo a 100
ccc xxx nnn b 200
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2" }' file.tsv | column -ts $'\t'
head_1 head_2 head_3
ccc xxx nnn b 200 ## note these data are sorted
bbb yyy ooo a 100 ## based on the xxx/yyy/zzz
aaa zzz c 300 ## not the a/b/c
當我嘗試明確告訴sort
字段分隔符號是製表符時,我收到此錯誤,我認為這與引用問題有關:
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t $'\t'" }' file.tsv | column -ts $'\t'
sort: option requires an argument -- 't'
Try 'sort --help' for more information.
head_1 head_2 head_3
如何指定sort
`awk 內部的列分隔符號?謝謝
SE 的 Web 介面在語法高亮方面比 Notepad++ 做得更好;這是我嘗試過的一些事情:
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t $'$'\t''" }' file.tsv | column -ts $'\t'
head_1 head_2 head_3
aaa zzz c 300
bbb yyy ooo a 100
ccc xxx nnn b 200
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t $'\t'" }' file.tsv | column -ts $'\t'
sort: option requires an argument -- 't'
Try 'sort --help' for more information.
head_1 head_2 head_3
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t "'$'\t''"" }' file.tsv | column -ts $'\t'
sort: option requires an argument -- 't'
Try 'sort --help' for more information.
head_1 head_2 head_3
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t "'$'\t'' }' file.tsv | column -ts $'\t'
sort: option requires an argument -- 't'
Try 'sort --help' for more information.
head_1 head_2 head_3
答案1
選擇以下選項之一:
... | "sort -k2 -t \\\t "
... | "sort -k2 -t \"\t\" "
... | "sort -k2 -t'\''\t'\'' "
... | "sort -k2 -t \047\011\047" ## preferred
\011
是八位元組 ASCII 代碼標籤字元/\047
用於單引號 '
awk -v q="'" ... { print | "sort -k2 -t " q "\t" q }'
awk -v tb="'\t'" ... { print | "sort -k2 -t " tb }'
awk -v tb=$'\t' ... { print | "sort -k2 -t \"" tb "\"" }'
awk -v tb=$'\t' -v q="'" ... { print | "sort -k2 -t " q tb q }'
還有很多 …;讀awk 中的 Shell 引用問題;也可以看看awk 中的轉義序列
答案2
這可能不是一種正確的單行方式,但很簡單,不需要使用製表符......:D
var=$(head -1 file.tsv);perl -ne '{ print $_ if $. > 1; }' file.csv| sort -k2 | sed "1 i $var" | column -ts "\t"
答案3
FWIW這是我如何解決對資料進行排序但保留頂部標題的實際問題:
awk -v OFS='\t' '{print (NR>1), $0}' file.tsv | sort -t$'\t' -k1,1n -k3 | cut -f2-
上面的工作原理是在輸入資料前面加上0 或1(0 表示第一行,1 表示所有其他行),這樣您就可以先對該指標進行排序,然後再對您關心的真正鍵進行排序,然後再次刪除該新增的欄位。
這是分階段工作的:
$ awk -v OFS='\t' '{print (NR>1), $0}' file.tsv
0 head_1 head_2 head_3
1 aaa zzz c 300
1 bbb yyy ooo a 100
1 ccc xxx nnn b 200
$ awk -v OFS='\t' '{print (NR>1), $0}' file.tsv | sort -t$'\t' -k1,1n -k3
0 head_1 head_2 head_3
1 bbb yyy ooo a 100
1 ccc xxx nnn b 200
1 aaa zzz c 300
$ awk -v OFS='\t' '{print (NR>1), $0}' file.tsv | sort -t$'\t' -k1,1n -k3 | cut -f2-
head_1 head_2 head_3
bbb yyy ooo a 100
ccc xxx nnn b 200
aaa zzz c 300