Я ищу команду для извлечения из файла в таком формате:
hello 32
hello 67
hi 2
ho 1212
ho 1390
ho 3000
В этом формате (дедубликаты удаляются путем взятия последней строки «группы»):
hello 67
hi 2
ho 3000
На данный момент я использую фрагмент кода Python и pandas:
df = pd.read_csv(self.input().path, sep='\t', names=('id', 'val'))
# how to replace this logic with shell commands?
surface = df.drop_duplicates(cols=('id'), take_last=True)
with self.output().open('w') as output:
surface.to_csv(output, sep='\t', cols=('id', 'val'))
Обновление: Спасибо за отличные ответы. Вот некоторые контрольные показатели:
Входной файл имеет размер 246 МБ и содержит 8583313 строк. Порядок не имеет значения. Первый столбец имеет фиксированный размер в 9 символов.
Пример входного файла:
000000027 20131017023259.0 00
000000027 20131017023259.0 11
000000035 20130827104320.0 01
000000035 20130827104320.0 04
000000043 20120127083412.0 01
...
time space complexity
tac .. | sort -k1,1 -u 27.43682s O(log(n))
Python/Pandas 11.76063s O(n)
awk '{c[$1]=$0;} END{for(... 11.72060s O(n)
Поскольку первый столбец имеет фиксированную длину, uniq -w
можно также использовать:
tac {input} | uniq -w 9 3.25484s O(1)
решение1
Это кажется безумием, и надеюсь, есть лучший способ, но:
tac foo | sort -k 1,1 -u
tac
используется для обратного перемещения файла, поэтому вы получаете последний, а не первый файл.
-k 1,1
говорит использовать только первое поле для сравнения.
-u
делает его уникальным.
решение2
Если вас не смущает порядок вывода, вот awk
решение:
$ awk '
{a[$1] = !a[$1] ? $2 : a[$1] < $2 ? $2 : a[$1]}
END {
for (i in a) { print i,a[i] }
}
' file
hi 2
hello 67
ho 3000
решение3
Еще несколько вариантов:
perl
, если вас не волнует порядок строк.perl -lane '$k{$F[0]}=$F[1]; END{print "$_ $k{$_}" for keys(%k)}' file
Более простой
awk
awk '{c[$1]=$0;} END{for(i in c){print c[i]}}' file
Глупая ракушка.
while read a b; do grep -w ^"$a" file | tail -n1 ; done < file | uniq