Estoy buscando un comando para obtener de un archivo en este formato:
hello 32
hello 67
hi 2
ho 1212
ho 1390
ho 3000
A este formato (eliminar duplicados tomando la última fila de un "grupo"):
hello 67
hi 2
ho 3000
Por el momento estoy usando un fragmento de Python y pandas:
df = pd.read_csv(self.input().path, sep='\t', names=('id', 'val'))
# how to replace this logic with shell commands?
surface = df.drop_duplicates(cols=('id'), take_last=True)
with self.output().open('w') as output:
surface.to_csv(output, sep='\t', cols=('id', 'val'))
Actualización: Gracias por las excelentes respuestas. Aquí hay algunos puntos de referencia:
El archivo de entrada tiene 246M y contiene 8583313 líneas. El orden no importa. La primera columna tiene un tamaño fijo de 9 caracteres.
Ejemplo del archivo de entrada:
000000027 20131017023259.0 00
000000027 20131017023259.0 11
000000035 20130827104320.0 01
000000035 20130827104320.0 04
000000043 20120127083412.0 01
...
time space complexity
tac .. | sort -k1,1 -u 27.43682s O(log(n))
Python/Pandas 11.76063s O(n)
awk '{c[$1]=$0;} END{for(... 11.72060s O(n)
Dado que la primera columna tiene una longitud fija, uniq -w
también se puede utilizar:
tac {input} | uniq -w 9 3.25484s O(1)
Respuesta1
Esto parece una locura y, con suerte, hay una manera mejor, pero:
tac foo | sort -k 1,1 -u
tac
se utiliza para invertir el archivo, por lo que obtienes el último en lugar del primero.
-k 1,1
dice usar solo el primer campo para comparar.
-u
lo hace único.
Respuesta2
Si no le importa el orden de salida, aquí tiene una awk
solución:
$ awk '
{a[$1] = !a[$1] ? $2 : a[$1] < $2 ? $2 : a[$1]}
END {
for (i in a) { print i,a[i] }
}
' file
hi 2
hello 67
ho 3000
Respuesta3
Algunas opciones más:
perl
, si no te importa el orden de las líneas.perl -lane '$k{$F[0]}=$F[1]; END{print "$_ $k{$_}" for keys(%k)}' file
un mas simple
awk
awk '{c[$1]=$0;} END{for(i in c){print c[i]}}' file
Un caparazón tonto
while read a b; do grep -w ^"$a" file | tail -n1 ; done < file | uniq