Uniq по двум столбцам с двумя условиями

Uniq по двум столбцам с двумя условиями

У меня есть таблица со столбцами. В первом столбце у меня время, когда пользователь вошел в систему, во втором столбце у меня имя пользователя.

13:15:39  fxs1cia1qulm1lk  
13:15:39  fxs1cia1qulm1lk  
13:15:39  fxs1cia1qulm1lk  
13:15:42  faaaa2aa11111  
13:15:49  terd1sfsd11fsdf  
13:15:49  terd1sfsd11fsdf  
13:15:49  terd1sfsd11fsdf  
13:15:59  21erdsf123sdfsdf   
13:15:59  21erdsf123sdfsdf   
13:15:59  21erdsf123sdfsdf   
13:15:59  21erdsf123sdfsdf   
13:17:50  abcasbbabadab  
13:17:50  abcasbbabadab  
13:17:50  abcasbbabadab  
13:17:50  abcasbbabadab   
13:19:19  fxs1ce1iulmla   
13:19:19  fxs1ce1iulmla  
13:19:19  fxs1ce1iulmla   
13:20:42  faaa2a0a1111

Итак, что мне делать. Мне нужно сделать уникальную операцию с этими двумя столбцами, и если время входа пользователя и имя пользователя совпадают, я должен сказать, что пользователь входил более 3 раз. Я написал короткий скрипт:

log_file=/root/log
temp_file=/root/temp
temp_file2=/root/temp2

cat /dev/null > $temp_file
cat /dev/null > $temp_file2
cat /dev/null > $result_file

cat $log_file | awk '{print $1}' | tail -n 20 > $temp_file
cat $log_file | awk '{print $5}' | tail -n 20 > $temp_file2

for i in `uniq -c $temp_file | awk '{print $1}'`; do
for y in `uniq -c $temp_file2 | awk '{print $2}'`; do
if [ $i -gt 3 ] && [ $y -gt 3 ]; then
s=`uniq -c $temp_file2 | awk '$1 == '$i`
echo "The user $s has logged more than 3 times"
fi
done
done

Пожалуйста, проверьте, как вы считаете, этот скрипт правильный? Потому что после вывода моего скрипта в echo у меня вот что:

The user       4 21erdsf123sdfsdf   
      4 abcasbbabadab  has logged more than 3 times
The user       4 21erdsf123sdfsdf   
      4 abcasbbabadab  has logged more than 3 times
The user       4 21erdsf123sdfsdf   
      4 abcasbbabadab  has logged more than 3 times
The user       4 21erdsf123sdfsdf   
      4 abcasbbabadab  has logged more than 3 times

Но я хочу получить такой вывод:

The user       4 21erdsf123sdfsdf has logged more than 3 times
The user       4 abcasbbabadab  has logged more than 3 times

И все. Где у меня ошибка? Помогите пожалуйста.

решение1

Вы можете сделать это очень просто с помощьюawk

awk '{ users[$2]++ }
END {
     for (user in users)
       if (users[user] > 1)
         printf "%s logged in %d times\n", user, users[user]
    }' < /root.log

Эта программа сканирует root.log, создавая ассоциативный массив (он же хэш) со значениями количества всех пользователей, а затем выводит те из них, которые больше единицы.

решение2

Итак, единственная проблема в том, что он печатает один и тот же вывод несколько раз? Почему бы просто не передать через uniq? Скопировать в другой временный файл и затем запустить uniq на нем?

Если это не то, о чем вы спрашиваете, у меня есть несколько замечаний:

  • Работа с данными, разделенными строками, в bash/sh обычно доставляет больше хлопот, чем пользы. Если решение не очевидно, обратитесь к скриптовому языку, где вам не придется все время возиться с IFS. (Если вы не знаете, что такое переменная IFS, то я очень-очень рекомендую держаться подальше от bash/sh для данных, разделенных строками.)
  • Поскольку вы уже используете awk, я уверен, вы могли бы сделать все это как скрипт awk.
  • Поскольку интересующие вас строки идентичны, вы можете сделать sort logfile | uniq -c.
  • Вы не сортируете файл до uniq, поэтому uniq не сработает, если одинаковые строки не находятся рядом друг с другом. Например, если Боб и Джо вошли в систему одновременно, а их записи в журнале чередуются.
  • всегда есть grep -c
  • почитайте о команде сортировки, особенно о -d, -n, -k и -t

ОБНОВЛЯТЬ

Вы ищете совет по написанию сценариев оболочки или практический ответ на вопрос, как узнать, кто в данный момент находится в 3 или более сеансах?

советы по написанию сценариев:

  • Я почти уверен, $sчто содержит всю строку, 4 21erdsf123sdfsdf <newline> 4 abcasbbabadabвключая новую строку. Я не могу понять, почему.
  • Зачем вы это делаете awk '{print $5}'? Я попробовал скопировать данные вашего примера и запустить их awk '{print $5}', но получил кучу новых строк и больше ничего.
  • Вы ознакомились с содержимым $temp_fileи $temp_file2убедились, что оно соответствует вашим ожиданиям?
  • Мне говорят tail -n 20, что вам нужны только «последние» записи, и вас не волнует, насколько они свежие. Это правда?
  • Строки cat /dev/null > $fileлишние, просто уберите их.
  • Заменить cat $logfileнаsort $logfile
  • Отступы в петлях

По сути, этот скрипт не будет делать то, что вы хотите, и я не могу сказать, как вы хотели, чтобы он работал, поэтому я не могу дать более конкретный совет. Извините.

практичный

  • используйте скрипт awk @greg-tarsa ​​(извините, Грег, я не знаю, как связаться с пользователем, у которого в имени есть пробел)
  • вы говорите о текущих входах в unix box? Вы пробовали whoкоманду? EG who | awk '{ print $1}' | sort | uniq -c | sort -d -rили lastкоманду?
  • ищите ответ на ваш общий вопрос (как узнать, кто входил/входил в систему слишком много раз) вместо более конкретного вопроса, который блокирует решение, которое вы уже пытаетесь реализовать (Uniq по двум столбцам с двумя условиями). Если вас больше интересует практика написания сценариев оболочки, задайте свой вопрос таким образом, чтобы это было сказано.

Связанный контент