Удалить всю строку в файле, если первый столбец повторяется

Question 1

Несколько способов:

awk
```
awk '!a[$1]++' file
```
Вот очень сжатый способ записи этого:
```
awk '{if(! a[$1]){print; a[$1]++}}' file
```
Итак, если текущего первого поля ( $1) нет в aмассиве, вывести строку и добавить 1-е поле к a. В следующий раз, когда мы увидим это поле, оно будет в массиве и поэтому не будет выведено.
Перл
```
perl -ane '$k{$F[0]}++ or print' file
```
или
```
perl -ane 'print if !$k{$F[0]}++' file
```
Это в основном то же самое, что и awkодин. -nзаставляет perl читать входной файл построчно и применять скрипт, предоставленный к -eкаждой строке. -aавтоматически разобьет каждую строку по пробелам и сохранит полученные поля в @Fмассиве. Наконец, первое поле добавляется в %kхэш, и если его там еще нет, строка выводится. То же самое можно записать как
```
perl -e 'while(<>){
            @F=split(/\s+/); 
            print unless defined($k{$F[0]}); 
            $k{$F[0]}++;
         }' file
```
Coreutils
```
rev file | uniq -f 1 | rev
```
Этот метод работает, сначала переворачивая строки так, fileчто если строка 12 345, то теперь она будет 543 21. Затем мы используем , uniq -f 1чтобы игнорировать первое поле, то есть столбец, в котором находится 543. Есть поля внутри file. Использование uniqздесь имеет эффект фильтрации любых дубликатов строк, оставляя только по одной из каждой. Наконец, мы возвращаем строки в их исходный порядок с помощью еще одного переворота.
Сортировка GNU (какпредложенныйот @StéphaneChazelas)
```
sort -buk1,1
```
Флаг -bигнорирует начальные пробелы и -uозначает печать только уникальных полей. Умный момент — -k1,1. -kФлаг задает поле для сортировки. Он принимает общий формат, -k POS1[,POS2]который означает просмотр только полей POS1через POS2 при сортировке. Таким образом, -k1,1означает просмотр только 1-го поля. В зависимости от ваших данных вы можете также добавить одну из этих опций:
```
 -g, --general-numeric-sort
      compare according to general numerical value
 -n, --numeric-sort
      compare according to string numerical value
```

Answer

Несколько способов:

awk
```
awk '!a[$1]++' file
```
Вот очень сжатый способ записи этого:
```
awk '{if(! a[$1]){print; a[$1]++}}' file
```
Итак, если текущего первого поля ( $1) нет в aмассиве, вывести строку и добавить 1-е поле к a. В следующий раз, когда мы увидим это поле, оно будет в массиве и поэтому не будет выведено.
Перл
```
perl -ane '$k{$F[0]}++ or print' file
```
или
```
perl -ane 'print if !$k{$F[0]}++' file
```
Это в основном то же самое, что и awkодин. -nзаставляет perl читать входной файл построчно и применять скрипт, предоставленный к -eкаждой строке. -aавтоматически разобьет каждую строку по пробелам и сохранит полученные поля в @Fмассиве. Наконец, первое поле добавляется в %kхэш, и если его там еще нет, строка выводится. То же самое можно записать как
```
perl -e 'while(<>){
            @F=split(/\s+/); 
            print unless defined($k{$F[0]}); 
            $k{$F[0]}++;
         }' file
```
Coreutils
```
rev file | uniq -f 1 | rev
```
Этот метод работает, сначала переворачивая строки так, fileчто если строка 12 345, то теперь она будет 543 21. Затем мы используем , uniq -f 1чтобы игнорировать первое поле, то есть столбец, в котором находится 543. Есть поля внутри file. Использование uniqздесь имеет эффект фильтрации любых дубликатов строк, оставляя только по одной из каждой. Наконец, мы возвращаем строки в их исходный порядок с помощью еще одного переворота.
Сортировка GNU (какпредложенныйот @StéphaneChazelas)
```
sort -buk1,1
```
Флаг -bигнорирует начальные пробелы и -uозначает печать только уникальных полей. Умный момент — -k1,1. -kФлаг задает поле для сортировки. Он принимает общий формат, -k POS1[,POS2]который означает просмотр только полей POS1через POS2 при сортировке. Таким образом, -k1,1означает просмотр только 1-го поля. В зависимости от ваших данных вы можете также добавить одну из этих опций:
```
 -g, --general-numeric-sort
      compare according to general numerical value
 -n, --numeric-sort
      compare according to string numerical value
```

Question 2

Если длина первого столбца всегда составляет 5 символов, вы можете просто использовать uniq:

uniq -w 5 file

Если нет, используйте awk:

awk '$1!=a{print $0; a=$1}' file

Первый вариант определенно будет быстрее с большим файлом.

Answer

Если длина первого столбца всегда составляет 5 символов, вы можете просто использовать uniq:

uniq -w 5 file

Если нет, используйте awk:

awk '$1!=a{print $0; a=$1}' file

Первый вариант определенно будет быстрее с большим файлом.

Удалить всю строку в файле, если первый столбец повторяется

решение1

решение2

Связанный контент