Я хочу отсортировать файл с разделителями табуляции по определенному полю, сохраняя заголовок. Я использую, awk
как описано здесьсортировка и uniq в awk, но я не могу понять, кому сообщить sort
, что разделителем полей является табуляция.
Данные игрушки:
$ echo -e "head_1\thead_2\thead_3" > file.tsv
$ echo -e "aaa zzz\tc\t300" >> file.tsv
$ echo -e "bbb yyy ooo\ta\t100" >> file.tsv
$ echo -e "ccc xxx nnn\tb\t200" >> file.tsv
$ column -ts $'\t' file.tsv
head_1 head_2 head_3
aaa zzz c 300
bbb yyy ooo a 100
ccc xxx nnn b 200
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2" }' file.tsv | column -ts $'\t'
head_1 head_2 head_3
ccc xxx nnn b 200 ## note these data are sorted
bbb yyy ooo a 100 ## based on the xxx/yyy/zzz
aaa zzz c 300 ## not the a/b/c
Когда я пытаюсь явно указать, sort
что разделителем полей является табуляция, я получаю эту ошибку, которая, как я полагаю, связана с проблемами кавычек:
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t $'\t'" }' file.tsv | column -ts $'\t'
sort: option requires an argument -- 't'
Try 'sort --help' for more information.
head_1 head_2 head_3
Как мне указать разделитель столбцов sort
внутри `awk? Спасибо
Веб-интерфейс SE лучше справляется с подсветкой синтаксиса, чем Notepad++; вот несколько вещей, которые я попробовал:
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t $'$'\t''" }' file.tsv | column -ts $'\t'
head_1 head_2 head_3
aaa zzz c 300
bbb yyy ooo a 100
ccc xxx nnn b 200
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t $'\t'" }' file.tsv | column -ts $'\t'
sort: option requires an argument -- 't'
Try 'sort --help' for more information.
head_1 head_2 head_3
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t "'$'\t''"" }' file.tsv | column -ts $'\t'
sort: option requires an argument -- 't'
Try 'sort --help' for more information.
head_1 head_2 head_3
$ awk -F'\t' 'NR==1; NR>1 { print | "sort -k2 -t "'$'\t'' }' file.tsv | column -ts $'\t'
sort: option requires an argument -- 't'
Try 'sort --help' for more information.
head_1 head_2 head_3
решение1
выберите один из этих вариантов:
... | "sort -k2 -t \\\t "
... | "sort -k2 -t \"\t\" "
... | "sort -k2 -t'\''\t'\'' "
... | "sort -k2 -t \047\011\047" ## preferred
\011
это октетный код ASCII дляВкладкасимвол/ \047
для одинарной кавычки '
awk -v q="'" ... { print | "sort -k2 -t " q "\t" q }'
awk -v tb="'\t'" ... { print | "sort -k2 -t " tb }'
awk -v tb=$'\t' ... { print | "sort -k2 -t \"" tb "\"" }'
awk -v tb=$'\t' -v q="'" ... { print | "sort -k2 -t " q tb q }'
и многое другое…; читатьПроблемы с цитированием Shell в awk; смотрите такжеEscape-последовательности в awk
решение2
Это, возможно, не совсем однострочный способ, но зато просто и не нужно играть с символами табуляции... :D
var=$(head -1 file.tsv);perl -ne '{ print $_ if $. > 1; }' file.csv| sort -k2 | sed "1 i $var" | column -ts "\t"
решение3
Кстати, вот как я бы решил вашу реальную проблему сортировки данных, но сохранив заголовок вверху:
awk -v OFS='\t' '{print (NR>1), $0}' file.tsv | sort -t$'\t' -k1,1n -k3 | cut -f2-
Вышеуказанный пример работает путем добавления 0 или 1 к входным данным (0 для первой строки, 1 для всех остальных строк), чтобы вы могли сначала выполнить сортировку по этому индикатору, а затем по вашему реальному ключу, который вас интересует, а затем просто снова удалить это добавленное поле.
Вот как это работает поэтапно:
$ awk -v OFS='\t' '{print (NR>1), $0}' file.tsv
0 head_1 head_2 head_3
1 aaa zzz c 300
1 bbb yyy ooo a 100
1 ccc xxx nnn b 200
$ awk -v OFS='\t' '{print (NR>1), $0}' file.tsv | sort -t$'\t' -k1,1n -k3
0 head_1 head_2 head_3
1 bbb yyy ooo a 100
1 ccc xxx nnn b 200
1 aaa zzz c 300
$ awk -v OFS='\t' '{print (NR>1), $0}' file.tsv | sort -t$'\t' -k1,1n -k3 | cut -f2-
head_1 head_2 head_3
bbb yyy ooo a 100
ccc xxx nnn b 200
aaa zzz c 300