Consolidar y agregar columnas de fecha y hora según la columna de marca de tiempo

Question 1

Usando awk:

awk 'BEGIN{ OFS=FS="," }
  NR==1{ print "Date", "Hour"; next }
  {
    $0=substr($1, 1, 10) FS substr($1, 12, 2)
    if ($0 == prev) next  # skip to next record if record equals prev
    prev=$0               # remember record
  }
  1                       # print record
' file

Por lo tanto, la cadena de fecha consta de los primeros 10 caracteres que comienzan en la posición 1 del primer campo y la hora se extrae de 2 caracteres que comienzan en la posición 12.

Ambos valores más un separador de campo ( FS) se asignan al registro ( $0) y se imprimen si el registro recordado anterior es diferente.

Answer

Usando awk:

awk 'BEGIN{ OFS=FS="," }
  NR==1{ print "Date", "Hour"; next }
  {
    $0=substr($1, 1, 10) FS substr($1, 12, 2)
    if ($0 == prev) next  # skip to next record if record equals prev
    prev=$0               # remember record
  }
  1                       # print record
' file

Por lo tanto, la cadena de fecha consta de los primeros 10 caracteres que comienzan en la posición 1 del primer campo y la hora se extrae de 2 caracteres que comienzan en la posición 12.

Ambos valores más un separador de campo ( FS) se asignan al registro ( $0) y se imprimen si el registro recordado anterior es diferente.

Question 2

sorty uniqpuedo darle el ejemplo de salida que se muestra en su pregunta.

$ sed -e 's/Timestamp.*/Date,Hour/; s/ \(..\):.*/,\1/' file.csv  | uniq
Date,Hour
2018 07 16,13
2018 07 16,14
2018 07 16,15
2018 07 16,17
2018 07 16,18
2018 07 17,10
2018 07 18,13
2018 07 19,13

Sin embargo, también dijo que quería que estos dos nuevos campos se agregaran a las líneas de entrada actuales. Eso no tiene mucho sentido para mí, porque entonces terminarías con la Fecha y la Hora duplicadas en cada línea (ya están al principio de cada línea en el campo Marca de tiempo).

Lo siguiente no es exactamente lo que solicitó pero, en mi opinión, es una mejora.

En lugar de agregar Fecha y Hora al final de cada línea, simplemente transforma sedel campo Marca de tiempo existente en campos de Fecha y Hora. Luego uniqse utiliza para deshacerse de líneas duplicadas.

$ sed -e 's/Timestamp/Date,Hour/; s/ \(..\):[^,]*,/,\1,/' file.csv  | uniq
Date,Hour,data1,data2
2018 07 16,13,23,45
2018 07 16,14,23,45
2018 07 16,15,23,45
2018 07 16,17,23,45
2018 07 16,18,23,45
2018 07 17,10,23,45
2018 07 18,13,23,45
2018 07 19,13,23,45

Esto supone que el archivo de entrada ya está en orden de marca de tiempo.

NOTA: si los valores de data1o data2pueden variar, las líneas de salida no serán únicas y se imprimirá la línea. Esto se debe a que uniqcompara toda la línea con la línea anterior ( uniqse puede hacer para omitir campos, pero solo reconoce los espacios en blanco como separador de campos y no se puede hacer que use comas, ni se puede hacer que use solo los dos primeros campos) . Si eso es lo que quieres, funcionará como está.

De lo contrario, necesitaría usar awko perlo algo en lugar de uniqverificar la unicidad. Por ejemplo, lo siguiente se utiliza awkpara comparar sólo los dos primeros campos separados por comas (es decir, Fecha y Hora):

$ sed -e 's/Timestamp/Date,Hour/; s/ \(..\):[^,]*,/,\1,/' file.csv  |
    awk -F, 'prev != $1$2 {print; prev=$1$2}'

Pero si va a canalizar la salida de sedinto awk, también puede usarlo awksolo, ya que awk puede hacer todo lo que sedpuede hacer; para eso están las funciones sub(), gsub()y de awk. gensub()p.ej

$ awk -F, -v OFS=, '{ sub(/Timestamp/,"Date,Hour");
                       $1 = gensub(/ ([0-9]+):.*/,",\\1",1,$1)
                    };
                    prev != $1$2 {print; prev=$1$2}' file.csv

o con perl:

$ perl -lne 's/Timestamp/Date,Hour/;
             s/ (\d\d):.*?,/,$1,/;
             ($current) = (m/^[^,]+,\d\d|^Date),/);
             if ($prev ne $current) {print ; $prev = $current}' file.csv

Answer