Como manipular campos específicos?

Question 1

Embora aprender awk seja um objetivo admirável, ele não possui nenhum mecanismo integrado para analisar arquivos CSV verdadeiros (em particular, campos que podem conter delimitadores com escape ou entre aspas) - e as funções de tempo são específicas do GNU e não portáveis.

Por estas razões você pode considerar usar Perl (com seuTexto::CSVmódulo), Python - ou meu favorito atual para esse tipo de coisa,Moleiro. Além de fornecer análise CSV verdadeira, eles também fornecem uma strptimefunção adequada, enquanto mesmo com GNU awk mktimevocê precisa analisar e montar manualmente o datespecargumento.

No Miller, por exemplo, você poderia fazer o seguinte:

mlr --csv \
  put -S '
    s = strptime($time,"%Y-%m-%dT%H:%M:%SZ") + 3*3600; 
    $date = strftime(s,"%d.%m.%Y"); 
    $time = strftime(s,"%H:%M:%S"); 
    $place =~ "(.* of |)([^,]*),(.*)$" { $place = "\2" }
  ' then cut -o -f date,time,latitude,longitude,depth,mag,place input.csv

Se você quiser colunas de saída separadas por espaços em branco, mude --csvpara --icsv --opprint(saída tabular "bem impressa" - com cabeçalhos) ou --icsv --onidx(saída simples separada por espaços).

Ex.

$ mlr --icsv --opprint   put -S '
    s = strptime($time,"%Y-%m-%dT%H:%M:%SZ") + 3*3600; 
    $date = strftime(s,"%d.%m.%Y"); 
    $time = strftime(s,"%H:%M:%S"); 
    $place =~ "(.* of |)([^,]*),(.*)$" { $place = "\2" }
  ' then cut -o -f date,time,latitude,longitude,depth,mag,place input.csv
date       time     latitude longitude depth mag place
06.12.2019 16:04:46 -15.2838 -175.1193 10    6   Hihifo
04.12.2019 23:10:03 -19.0515 169.5628  266   6   Isangel
03.12.2019 11:46:36 -18.5597 -70.6504  32.44 6   Arica
02.12.2019 08:01:54 51.3218  -178.2425 27.33 6   Amatignak Island
27.11.2019 10:23:42 35.7272  23.2673   71.76 6   Platanos
26.11.2019 05:54:12 41.5112  19.5151   20    6.4 Mamurras
24.11.2019 03:54:01 51.3809  -175.5108 20    6.3 Adak
23.11.2019 15:11:16 1.6286   132.7854  10    6.1 Papua region
21.11.2019 02:50:43 19.4533  101.3558  10    6.2 Chaloem Phra Kiat

Miller está disponível no universerepositório do Ubuntu.

Answer

Embora aprender awk seja um objetivo admirável, ele não possui nenhum mecanismo integrado para analisar arquivos CSV verdadeiros (em particular, campos que podem conter delimitadores com escape ou entre aspas) - e as funções de tempo são específicas do GNU e não portáveis.

Por estas razões você pode considerar usar Perl (com seuTexto::CSVmódulo), Python - ou meu favorito atual para esse tipo de coisa,Moleiro. Além de fornecer análise CSV verdadeira, eles também fornecem uma strptimefunção adequada, enquanto mesmo com GNU awk mktimevocê precisa analisar e montar manualmente o datespecargumento.

No Miller, por exemplo, você poderia fazer o seguinte:

mlr --csv \
  put -S '
    s = strptime($time,"%Y-%m-%dT%H:%M:%SZ") + 3*3600; 
    $date = strftime(s,"%d.%m.%Y"); 
    $time = strftime(s,"%H:%M:%S"); 
    $place =~ "(.* of |)([^,]*),(.*)$" { $place = "\2" }
  ' then cut -o -f date,time,latitude,longitude,depth,mag,place input.csv

Se você quiser colunas de saída separadas por espaços em branco, mude --csvpara --icsv --opprint(saída tabular "bem impressa" - com cabeçalhos) ou --icsv --onidx(saída simples separada por espaços).

Ex.

$ mlr --icsv --opprint   put -S '
    s = strptime($time,"%Y-%m-%dT%H:%M:%SZ") + 3*3600; 
    $date = strftime(s,"%d.%m.%Y"); 
    $time = strftime(s,"%H:%M:%S"); 
    $place =~ "(.* of |)([^,]*),(.*)$" { $place = "\2" }
  ' then cut -o -f date,time,latitude,longitude,depth,mag,place input.csv
date       time     latitude longitude depth mag place
06.12.2019 16:04:46 -15.2838 -175.1193 10    6   Hihifo
04.12.2019 23:10:03 -19.0515 169.5628  266   6   Isangel
03.12.2019 11:46:36 -18.5597 -70.6504  32.44 6   Arica
02.12.2019 08:01:54 51.3218  -178.2425 27.33 6   Amatignak Island
27.11.2019 10:23:42 35.7272  23.2673   71.76 6   Platanos
26.11.2019 05:54:12 41.5112  19.5151   20    6.4 Mamurras
24.11.2019 03:54:01 51.3809  -175.5108 20    6.3 Adak
23.11.2019 15:11:16 1.6286   132.7854  10    6.1 Papua region
21.11.2019 02:50:43 19.4533  101.3558  10    6.2 Chaloem Phra Kiat

Miller está disponível no universerepositório do Ubuntu.

Question 2

Primeiro, você precisará pré-processar a entrada CSV para lidar melhor com a vírgula incorporada. Em seguida, divida o AWK em partes funcionais.

$ cat preprocess.sed
#!/bin/sed -f
:start   # loop back to here
/"/{  # for any line that has a double quote
  h   # copy to the hold buffer
  s/[^"]*"\([^"]*\).*/\1/  # what is between the first pair of dquotes
  s/,/@@/g    # replace comma with '@@'
  G   # append the hold buffer to the pattern buffer
      # so we get what was in dqoutes followed by a newline followed by the
      # original line
  s/\(.*\)\n\([^"]*\)"\([^"]*\)"\(.*\)/\2\1\4/
      # replace the unquoted part with what was there
  t start   # go back to 'start'
}

Isso substituirá o ".*,.*"por .*@@.*, o que tornará mais fácil para o AWK.

Para alterar apenas a data para um novo fuso horário, substitua a primeira linha:

$ cat change_date.sh
#!/bin/sh
userTZ="${1:-UTC+3}"
sed 's/,/ /' |
    while read datestr rest; do
        if [ "${datestr}" = time ]; then
            newdate="${datestr}"
        else
            newdate=$(TZ=${userTZ} date -d "${datestr}" "+%d %m %Y %H:%M:%S")
        fi
        echo "${newdate}:${rest}"

    done

O script AWK ficaria assim:

$ cat reformat.awk
#!/bin/awk  -f
BEGIN {IFS=","}  # comma separated fields
NR==1 {print; next;}  # print the header and do nothing more with it
{   # get just the "town" from the place field
    sub(/.* of /,"",$14)  # strip up to the " of "
    sub(/@@ .*/,"",$14)   # strip after the embedded comma (now '@@')
}
{
    printf("%s %8.3f %8.3f %8.3fs %8.3f %s\n", $1, $2, $3, $4, $5, $14)
}

Certifique-se de que ambos sejam executáveis e executadospreprocess.sed sample.csv | change_date.sh | reformat.awk

Ou em uma linha:

sed ':start;/"/{;h;s/[^"]*"\([^"]*\).*/\1/;s/,/@@/g;G;s/\(.*\)\n\([^"]*\)"\([^"]*\)"\(.*\)/\2\1\4/;t start;};s/,/ /' test.csv | while read datestr rest; do if [ "$datestr" = "time" ]; then newdate="${datestr}"; else newdate=$(TZ=UTC+3 date -d "$datestr" "+%d %m %Y %H:%M:%S"); fi; echo "${newdate},${rest}"; done | awk -F, 'NR==1 {print;next} {sub(/.* of /,"",$14);sub(/@@ .*/,"",$14)} {printf("%s %8.3f %8.3f %8.3fs %8.3f %s\n", $1, $2, $3, $4, $5, $14)}'

Answer