カンマ区切りのファイルをパイプに置き換えますが、テキスト修飾子フィールド内のカンマや引用符などは削除しません。ただし、テキスト修飾子は削除します。

カンマ区切りのファイルをパイプに置き換えますが、テキスト修飾子フィールド内のカンマや引用符などは削除しません。ただし、テキスト修飾子は削除します。

私のファイルはコンマ区切りファイルで、テキスト修飾子は ~ ですが、私の要件は、コンマ区切りファイルを |(パイプ) 区切りファイルで検索して置き換え、テキスト修飾子 ~ を削除して何もしないことです。ただし、テキスト修飾子に存在するデータ内の引用符や二重引用符、または特殊文字を削除してはなりません。例: ~abc",~ は abc として必要です。

以下は、ソース ファイルの内容と、出力または操作されたファイルに期待される内容です。

ソースファイル:

364034,2015652205,26722,2015,4,~C25753-4~,~TC25753,~,~2WD Double Cab 144.2" SLT,~,~Y~,40506.16,43555.00,1095.00,~043,005,006,007,003,008,016,041,012,029,068,027,028,033~,3,~2WD Double Cab 144.2"~,~SLT~,6,4,~N~,~S~,~N~,~S~,~N~,~N~,~N~,~~,~ ~,~Confirmed~,~w2015k65m22t5~,~Sierra 2500HD~,~Double Cab Standard Box 2-Wheel Drive SLT~,~Rear Wheel Drive~,~Extended Cab Pickup - Standard Bed~

クレンジング後、次のようなファイルが必要です。

364034|2015652205|26722|2015|4|C25753-4|TC25753,|2WD Double Cab 144.2" SLT,|Y|40506.16|43555.00|1095.00|043|005|006|007|003|008|016|041|012|029|068|027|028|033|3|2WD Double Cab 144.2"|SLT|6|4|N|S|N|S|N|N|N|| |Confirmed|w2015k65m22t5|Sierra 2500HD|Double Cab Standard Box 2-Wheel Drive SLT|Rear Wheel Drive|Extended Cab Pickup - Standard Bed

複数のオプションを指定して sed -i -e を試しましたが、出力は 100% 正しくありません。

次のように試してみましたが、期待通りの結果が得られませんでした

sed -i -e 's/,~/|/g' file_name
sed -i -e 's/~,/|/g' file_name
sed -i -e 's/~//g' file_name
sed -i -e 's/\([0-9],[0-9]\)/|/g' file_name
sed -i -e 's/\r//g' file_name

答え1

ESC=$(printf '\033')
RED="${ESC}[0;31m"
 NC="${ESC}[0m"

sed -e '
   /./!b
   /[^[:space:]]/!b

   s/.*/\
&,/

   :loop
      h
      s/\(\n\),/|\1/;                                                  # An empty field
      s/\(\n\)\([+-]\{0,1\}[.][0-9]\{1,\}\),/\2|\1/;                   # +-.NNN
      s/\(\n\)\([+-]\{0,1\}[0-9]\{1,\}\([.][0-9]*\)\{0,1\}\),/\2|\1/;  # +-NNN.MMM +-NNN. +-NNN
      s/\(\n\)~\([0-9][0-9]*\),/\2|\1/;                                # ~NNN
      s/\(\n\)\([0-9][0-9]*\)~,/\2|\1/;                                # NNN~
      s/\(\n\)~\([^~]*\)~,/\2|\1/;                                     # ~...~
      x;G
      /^\(.*\)\n\1$/{
         g;'"s/\n\([^,]*\)/${RED}\1${NC}/"'
         i\
***'"${RED}ERROR${NC}"'*** Unable to process the field shown colored.\
\
Cause of error: What this means is that this particular field is not \
\
           Fix: You should add to the sed code in the :loop label to \
                digest the able to be processed by the sed code as it stands.\
\
The record with the offending field shown colored red:\

         q
      }
      g; # all clear: recover and carry on...
   /\n$/!bloop

   s/..$//
' csv.data

働く

  • 私たちはさまざまな種類のフィールドに基づいてソリューションを構築します。
  • 空行または空白行をスキップします。
  • 使用される正規表現を簡略化するために「,」を追加します。最後にこれを削除します。
  • \n処理を開始するために、行の先頭にマーカー を配置します。このマーカーは、1 回処理されるフィールドをジャンプしながら、左から右に移動します。
  • アクションはdo-whileループ内で始まり、ループの本体では一度に 1 つのフィールドを処理します。フィールドの開始は によって通知され\n、発生する可能性のあるさまざまな種類のフィールドを処理します。毎回、処理されたフィールドを の左側に移動し\n、 を,に置き換えます|
  • \nマーカーが行末に達するとループは停止し/\n$/、マーカーと,最初に配置したダミーが削除されます。

結果

364034|2015652205|26722|2015|4|C25753-4|TC25753,|2WD Double Cab 144.2" SLT,|Y|40506.16|43555.00|1095.00|043|005|006|007|003|008|016|041|012|029|068|027|028|033|3|2WD Double Cab 144.2"|SLT|6|4|N|S|N|S|N|N|N|| |Confirmed|w2015k65m22t5|Sierra 2500HD|Double Cab Standard Box 2-Wheel Drive SLT|Rear Wheel Drive|Extended Cab Pickup - Standard Bed

答え2

Perlのような専用のCSVパーサーを使用することをお勧めします。テキスト::CSV

perl -MText::CSV -lne '
    BEGIN{ $csv = Text::CSV->new({ quote_char => "~" , escape_char => "~" , allow_whitespace => 1}) } 
    print join "|", $csv->fields() if $csv->parse($_)
  ' file_name
364034|2015652205|26722|2015|4|C25753-4|TC25753,|2WD Double Cab 144.2" SLT,|Y|40506.16|43555.00|1095.00|043,005,006,007,003,008,016,041,012,029,068,027,028,033|3|2WD Double Cab 144.2"|SLT|6|4|N|S|N|S|N|N|N|| |Confirmed|w2015k65m22t5|Sierra 2500HD|Double Cab Standard Box 2-Wheel Drive SLT|Rear Wheel Drive|Extended Cab Pickup - Standard Bed

関連情報