awk: Точное совпадение строки с полем не работает с NUL в качестве разделителя записей

Question 1

Ваша команда sed не меняет символы новой строки ( \n) на NUL ( \0), а на NUL + символы новой строки ( \0\n) (как cat -Aпоказано).

При использовании GNU awk с RS, установленным на \0, первым символом последующей записи (и ее первого поля) будет \n, что нарушит точное совпадение.

И 's/\(,"[^,"]*\)\x00/\1/'исправление с помощью newline-splits ничего не меняет — оно просто добавляет newline",cзапись к предыдущей.

Быстрое и грязное «решение» — установить RSвместо \0\nпросто \0. Но этот способ обработки csv-файлов так, чтобы их можно было проанализировать с помощью awk, ненадежен, так что вам ДЕЙСТВИТЕЛЬНО следует найти что-то лучшее.

Ваш последний пример:

sed -e 's/$/\x00/' -e 's/\(,"[^,"]*\)\x00/\1/' input.txt |
gawk 'BEGIN {RS=ORS="\x00\n" ; FS=OFS=","} { if ($1=="a") print}' | cat -A
a,b,c^@$
a,"with quotes",c^@$
a,"with ,",c^@$
a,"with$
 newline",c^@$

sed -e 's/$/\x00/' -e 's/\(,"[^,"]*\)\x00/\1/' input.txt |
gawk 'BEGIN {RS="\x00\n" ; FS=OFS=","} { if ($1=="a") print}'
a,b,c
a,"with quotes",c
a,"with ,",c
a,"with
 newline",c

Answer

Ваша команда sed не меняет символы новой строки ( \n) на NUL ( \0), а на NUL + символы новой строки ( \0\n) (как cat -Aпоказано).

При использовании GNU awk с RS, установленным на \0, первым символом последующей записи (и ее первого поля) будет \n, что нарушит точное совпадение.

И 's/\(,"[^,"]*\)\x00/\1/'исправление с помощью newline-splits ничего не меняет — оно просто добавляет newline",cзапись к предыдущей.

Быстрое и грязное «решение» — установить RSвместо \0\nпросто \0. Но этот способ обработки csv-файлов так, чтобы их можно было проанализировать с помощью awk, ненадежен, так что вам ДЕЙСТВИТЕЛЬНО следует найти что-то лучшее.

Ваш последний пример:

sed -e 's/$/\x00/' -e 's/\(,"[^,"]*\)\x00/\1/' input.txt |
gawk 'BEGIN {RS=ORS="\x00\n" ; FS=OFS=","} { if ($1=="a") print}' | cat -A
a,b,c^@$
a,"with quotes",c^@$
a,"with ,",c^@$
a,"with$
 newline",c^@$

sed -e 's/$/\x00/' -e 's/\(,"[^,"]*\)\x00/\1/' input.txt |
gawk 'BEGIN {RS="\x00\n" ; FS=OFS=","} { if ($1=="a") print}'
a,b,c
a,"with quotes",c
a,"with ,",c
a,"with
 newline",c

Question 2

Ваш файл может содержать LF в середине поля с CRLF в конце строки, например, если он был экспортирован из MS-Excel. В этом случае все, что вам нужно с gawk, это:

awk 'BEGIN{RS=ORS="\r\n"; FPAT="[^,]*|(\"[^\"]*\")+"} $1=="a"' file

Например (используется cat -vтолько для того, чтобы сделать CR видимыми как ^Ms):

$ cat -v file
head1,head2,head3^M
a,b,c^M
b,no a in first field,c^M
a,"with quotes",c^M
a,"with ,",c^M
b,a,1^M
a,"with
 newline",c^M
b,1,a^M

$ awk 'BEGIN{RS=ORS="\r\n"; FPAT="[^,]*|(\"[^\"]*\")+"} $1=="a"' file | cat -v
a,b,c^M
a,"with quotes",c^M
a,"with ,",c^M
a,"with
 newline",c^M

Если есть какая-либо причина, по которой вышеизложенное не сработает для вас, см.https://stackoverflow.com/questions/45420535/whats-the-most-robust-way-to-effectively-parse-csv-using-awkили загрузите/используйте расширение парсера CSV gawks в gawkextlib.

Answer

Ваш файл может содержать LF в середине поля с CRLF в конце строки, например, если он был экспортирован из MS-Excel. В этом случае все, что вам нужно с gawk, это:

awk 'BEGIN{RS=ORS="\r\n"; FPAT="[^,]*|(\"[^\"]*\")+"} $1=="a"' file

Например (используется cat -vтолько для того, чтобы сделать CR видимыми как ^Ms):

$ cat -v file
head1,head2,head3^M
a,b,c^M
b,no a in first field,c^M
a,"with quotes",c^M
a,"with ,",c^M
b,a,1^M
a,"with
 newline",c^M
b,1,a^M

$ awk 'BEGIN{RS=ORS="\r\n"; FPAT="[^,]*|(\"[^\"]*\")+"} $1=="a"' file | cat -v
a,b,c^M
a,"with quotes",c^M
a,"with ,",c^M
a,"with
 newline",c^M

Если есть какая-либо причина, по которой вышеизложенное не сработает для вас, см.https://stackoverflow.com/questions/45420535/whats-the-most-robust-way-to-effectively-parse-csv-using-awkили загрузите/используйте расширение парсера CSV gawks в gawkextlib.

Question 3

смешанный подход sed awk:

$ < file \
sed -e '
  s/$/\x00/
  s/\(,"[^,"]*\)\x00/\1/
  H;1h;$!d;g
  s/\x00\n/\x00/g
' |
awk '/^a,/' RS="\x00" -

Комментарии: смешанный sed+awk Я взял ваш код и немного подправил его, чтобы получить желаемые результаты. Основная идея в том, чтобы убрать символы новой строки, которые sed неизменно вставляет. Таким образом, мы удерживаем sed от печати после обработки каждой записи. Затем в конце файла мы удаляем символы новой строки и передаем эти данные, разделенные NUL, в awk с NUL в качестве разделителя записей. Затем мы просто ищем записи, начинающиеся с a,

Выход:

a,b,c
a,"with quotes",c
a,"with ,",c
a,"with
 newline",c

Ниже приведены методы только awk и только sed. Они полагаются на кавычки внутри кавычек, которые будут удвоены.

чистый подход sed:

$ sed -Ee ':a
    /^(([^"]*"){2})*[^"]*$/!{
      $d;N;ba
    }
    /^a,/!d
' file

чистый подход awk

$ awk -F\" '
   !(NF%2){
      t = $0; n = NF
      while (getline a > 0) {
        t = t ORS a
        n = n + split(a, _x, FS)
        if (!(nf%2)) break 
      }
      $0 = t
   }/^a,/
' file

Answer

смешанный подход sed awk:

$ < file \
sed -e '
  s/$/\x00/
  s/\(,"[^,"]*\)\x00/\1/
  H;1h;$!d;g
  s/\x00\n/\x00/g
' |
awk '/^a,/' RS="\x00" -

Комментарии: смешанный sed+awk Я взял ваш код и немного подправил его, чтобы получить желаемые результаты. Основная идея в том, чтобы убрать символы новой строки, которые sed неизменно вставляет. Таким образом, мы удерживаем sed от печати после обработки каждой записи. Затем в конце файла мы удаляем символы новой строки и передаем эти данные, разделенные NUL, в awk с NUL в качестве разделителя записей. Затем мы просто ищем записи, начинающиеся с a,

Выход:

a,b,c
a,"with quotes",c
a,"with ,",c
a,"with
 newline",c

Ниже приведены методы только awk и только sed. Они полагаются на кавычки внутри кавычек, которые будут удвоены.

чистый подход sed:

$ sed -Ee ':a
    /^(([^"]*"){2})*[^"]*$/!{
      $d;N;ba
    }
    /^a,/!d
' file

чистый подход awk

$ awk -F\" '
   !(NF%2){
      t = $0; n = NF
      while (getline a > 0) {
        t = t ORS a
        n = n + split(a, _x, FS)
        if (!(nf%2)) break 
      }
      $0 = t
   }/^a,/
' file

awk: Точное совпадение строки с полем не работает с NUL в качестве разделителя записей

решение1

решение2

решение3

Связанный контент