awk: レコード区切り文字として NUL を使用すると、フィールドでの正確な文字列一致が機能しない

Question 1

sed コマンドは、改行 ( \n) を NUL ( \0) に変更するのではなく、NUL + 改行 ( \0\n) に変更します (図にcat -A示すように)。

RS をに設定して GNU awk を使用すると\0、後続のレコードの最初の文字 (およびその最初のフィールドの最初の文字) はになり\n、完全一致が失われます。

改行分割の修正では's/\(,"[^,"]*\)\x00/\1/'、これはまったく変更されません。newline",cレコードが前のレコードに追加されるだけです。

手っ取り早い「解決策」は、ではなくにRS設定することです。しかし、csv ファイルを awk で解析できるように編集するこの方法は信頼性が高くないため、もっと良い方法を見つける必要があります。\0\n\0

最後の例:

sed -e 's/$/\x00/' -e 's/\(,"[^,"]*\)\x00/\1/' input.txt |
gawk 'BEGIN {RS=ORS="\x00\n" ; FS=OFS=","} { if ($1=="a") print}' | cat -A
a,b,c^@$
a,"with quotes",c^@$
a,"with ,",c^@$
a,"with$
 newline",c^@$

sed -e 's/$/\x00/' -e 's/\(,"[^,"]*\)\x00/\1/' input.txt |
gawk 'BEGIN {RS="\x00\n" ; FS=OFS=","} { if ($1=="a") print}'
a,b,c
a,"with quotes",c
a,"with ,",c
a,"with
 newline",c

Answer

sed コマンドは、改行 ( \n) を NUL ( \0) に変更するのではなく、NUL + 改行 ( \0\n) に変更します (図にcat -A示すように)。

RS をに設定して GNU awk を使用すると\0、後続のレコードの最初の文字 (およびその最初のフィールドの最初の文字) はになり\n、完全一致が失われます。

改行分割の修正では's/\(,"[^,"]*\)\x00/\1/'、これはまったく変更されません。newline",cレコードが前のレコードに追加されるだけです。

手っ取り早い「解決策」は、ではなくにRS設定することです。しかし、csv ファイルを awk で解析できるように編集するこの方法は信頼性が高くないため、もっと良い方法を見つける必要があります。\0\n\0

最後の例:

sed -e 's/$/\x00/' -e 's/\(,"[^,"]*\)\x00/\1/' input.txt |
gawk 'BEGIN {RS=ORS="\x00\n" ; FS=OFS=","} { if ($1=="a") print}' | cat -A
a,b,c^@$
a,"with quotes",c^@$
a,"with ,",c^@$
a,"with$
 newline",c^@$

sed -e 's/$/\x00/' -e 's/\(,"[^,"]*\)\x00/\1/' input.txt |
gawk 'BEGIN {RS="\x00\n" ; FS=OFS=","} { if ($1=="a") print}'
a,b,c
a,"with quotes",c
a,"with ,",c
a,"with
 newline",c

Question 2

たとえば、MS-Excel からエクスポートされた場合、ファイルの途中に LF と CRLF 行末が含まれている可能性があります。その場合、gawk で必要なのは次のコードだけです。

awk 'BEGIN{RS=ORS="\r\n"; FPAT="[^,]*|(\"[^\"]*\")+"} $1=="a"' file

たとえば ( cat -vCR を^Ms として表示するにはのみを使用します):

$ cat -v file
head1,head2,head3^M
a,b,c^M
b,no a in first field,c^M
a,"with quotes",c^M
a,"with ,",c^M
b,a,1^M
a,"with
 newline",c^M
b,1,a^M

$ awk 'BEGIN{RS=ORS="\r\n"; FPAT="[^,]*|(\"[^\"]*\")+"} $1=="a"' file | cat -v
a,b,c^M
a,"with quotes",c^M
a,"with ,",c^M
a,"with
 newline",c^M

上記の方法がうまくいかない場合は、https://stackoverflow.com/questions/45420535/whats-the-most-robust-way-to-efficiently-parse-csv-using-awkまたは、gawkextlib の gawks CSV パーサー拡張機能をダウンロード/使用します。

Answer

たとえば、MS-Excel からエクスポートされた場合、ファイルの途中に LF と CRLF 行末が含まれている可能性があります。その場合、gawk で必要なのは次のコードだけです。

awk 'BEGIN{RS=ORS="\r\n"; FPAT="[^,]*|(\"[^\"]*\")+"} $1=="a"' file

たとえば ( cat -vCR を^Ms として表示するにはのみを使用します):

$ cat -v file
head1,head2,head3^M
a,b,c^M
b,no a in first field,c^M
a,"with quotes",c^M
a,"with ,",c^M
b,a,1^M
a,"with
 newline",c^M
b,1,a^M

$ awk 'BEGIN{RS=ORS="\r\n"; FPAT="[^,]*|(\"[^\"]*\")+"} $1=="a"' file | cat -v
a,b,c^M
a,"with quotes",c^M
a,"with ,",c^M
a,"with
 newline",c^M

上記の方法がうまくいかない場合は、https://stackoverflow.com/questions/45420535/whats-the-most-robust-way-to-efficiently-parse-csv-using-awkまたは、gawkextlib の gawks CSV パーサー拡張機能をダウンロード/使用します。

Question 3

混合 sed awk アプローチ:

$ < file \
sed -e '
  s/$/\x00/
  s/\(,"[^,"]*\)\x00/\1/
  H;1h;$!d;g
  s/\x00\n/\x00/g
' |
awk '/^a,/' RS="\x00" -

コメント: sed+awk の混合コード私はあなたのコードを採用し、希望する結果を得るために少し調整しました。主なアイデアは、sed が必ず挿入する改行を削除することです。そのため、各レコードを処理した後、sed が印刷するのを控えます。次に、eof で改行を削除し、この NUL で区切られたデータを、NUL をレコード区切り文字として使用して awk に渡します。次に、a で始まるレコードを検索します。

出力：

a,b,c
a,"with quotes",c
a,"with ,",c
a,"with
 newline",c

以下に、awk のみと sed のみのメソッドを示します。これらは、引用符で囲まれたフィールド内の引用符が二重化されることに依存します。

純粋なsedアプローチ:

$ sed -Ee ':a
    /^(([^"]*"){2})*[^"]*$/!{
      $d;N;ba
    }
    /^a,/!d
' file

純粋なawkアプローチ

$ awk -F\" '
   !(NF%2){
      t = $0; n = NF
      while (getline a > 0) {
        t = t ORS a
        n = n + split(a, _x, FS)
        if (!(nf%2)) break 
      }
      $0 = t
   }/^a,/
' file

Answer