Wie kann ich unter Unix TXT in XLS umwandeln?

Question

Der Grund für das Verhalten, das Sie sehen, ist, dass standardmäßig (also Leerzeichen, Tabulator) als Eingabefeldtrennzeichen awkbehandelt wird . DaherWHITESPACEjedenEin Element in Ihrer Eingabedatei, das von Leerzeichen umgeben ist, wird als einzelnes „Feld“ behandelt und erhält eine eigene $<number>interne Variable. Ihr awkBefehl weist jedoch an, nur die ersten beiden dieser Felder ( und ) awkauszudrucken , was in Ihrem Fall die Datums-/Uhrzeitzeichenfolge und das Literal sind .$1$2tid:

In Ihrem speziellen Fall könnte der einfachste Weg sein, zu verwenden, sedum dieErsteLeerzeichen durch einen Tabulator, was zum gewünschten Ergebnis führen sollte.

Da Sie auch eine Kopfzeile einfügen möchten, sollte Folgendes funktionieren (vorausgesetzt, sedes wird GNU verwendet):

sed -e '1 i\DateTime\tError' -e 's/ /\t/' TMP.txt > Output.txt

Der erste Ausdruck fügt den Text am Zeilenanfang ein, der zweite führt die „eigentliche Formatierung“ durch.

Aktualisieren

Für das zusätzliche Zeichenfolgenformat, das Sie bereitgestellt haben, würde ich awkstattdessen auf Folgendes zurückgreifen sed(beachten Sie, dass ich GNU awk verwende):

awk 'BEGIN{printf("DateTime\tError\n")} {match($0,"^([[:alpha:]]{3}[[:space:]]+[0123]?[[:digit:]],[[:space:]]+20[[:digit:]]{2}[[:space:]]+[01]?[[:digit:]]:[012345][[:digit:]]:[012345][[:digit:]][[:space:]]+[AP]M[[:space:]]+[[:alpha:]]+)[[:space:]]+([[:print:]]*)$", fields); printf("%s\t%s\n", fields[1], fields[2])}' TMP.txt > Output.txt

Dieser reguläre Ausdruck sucht nach einem von Ihnen angegebenen Zeitformat, gefolgt von einem oder mehreren Leerzeichen, gefolgt von beliebigen druckbaren Zeichen bis zum Ende der Zeile, und druckt die erste (...)Untergruppe, den Zeitstempel, dann ein \tund dann die zweite (...)Untergruppe, die „der Rest der Zeile“ ist. Zusätzlich BEGINwird der Anker verwendet, um die Kopfzeile oben einzufügen.

Da beide Fälle in derselben Datei auftreten können, müssen wir sie in einem einzigen awkProgramm kombinieren:

BEGIN {
    printf("DateTime\tError\n");
}

{
if (match($0,"^([[:alpha:]]{3}[[:space:]]+[0123]?[[:digit:]],[[:space:]]+20[[:digit:]]{2}[[:space:]]+[012]?[[:digit:]](:[012345][[:digit:]]){2}[[:space:]]+[AP]M[[:space:]]+[[:upper:]]+)[[:space:]]+([[:print:]]*)$", fields) == 0)
    match($0,"^(20[[:digit:]]{2}-[01][[:digit:]]-[0123][[:digit:]][[:alpha:]][012][[:digit:]](:[012345][[:digit:]]){2}.[[:digit:]]{3}[+-][012][[:digit:]]:[012345][[:digit:]])[[:space:]]+([[:print:]]*)$", fields);

printf("%s\t%s\n", fields[1], fields[3]);
}

Sie können das obige Skript aufrufen xlsconvert.awkund es dann als

user@host$ awk -f xlsconvert.awk TMP.txt > Output.txt

Beachten Sie, dass dadurch natürlich die unterschiedlichen Zeitstempelformate in der Ausgabe erhalten bleiben. Wenn Sie diese in ein einheitliches Format konvertieren möchten, müssen Sie möglicherweise auf ein Shell-Skript zurückgreifen.

Answer 1

Der Grund für das Verhalten, das Sie sehen, ist, dass standardmäßig (also Leerzeichen, Tabulator) als Eingabefeldtrennzeichen awkbehandelt wird . DaherWHITESPACEjedenEin Element in Ihrer Eingabedatei, das von Leerzeichen umgeben ist, wird als einzelnes „Feld“ behandelt und erhält eine eigene $<number>interne Variable. Ihr awkBefehl weist jedoch an, nur die ersten beiden dieser Felder ( und ) awkauszudrucken , was in Ihrem Fall die Datums-/Uhrzeitzeichenfolge und das Literal sind .$1$2tid: