Unix - Sed コマンド関連

Question

行全体ではなく行内の列を操作する場合は、よりもまたはの方がawkはるかperlに適したツールですsed。

perlまた、引用符で囲まれたフィールド（カンマを含む）を扱う必要がある場合は、テキスト::CSVCSV ファイルを解析するモジュール。を使用してこれを行うこともできますawkが、フィールド内の引用符とカンマを処理するために独自のパーサーを作成する必要があります。

Debian または類似の OS を実行している場合は、でインストールしますapt install libtext-csv-perl。他のディストリビューションでもパッケージ化されている可能性があります。それ以外の場合は、でインストールしますcpan。

以下は、を使用して実行できる非常に簡単な例ですText::CSV。man Text::CSV詳細については、を実行してください。

#!/usr/bin/perl

use strict;

use Text::CSV qw(csv);

my ($filename, $search, $year) = @ARGV;

my $csv = Text::CSV->new({allow_whitespace => 1,
                          allow_loose_quotes => 1,
                          quote_space => 0,
                         });

open(my $in, "<", $filename) or die "couldn't open $filename: $!";

my @headers = $csv->header($in);
pop @headers;                   # discard last field from @headers
$csv->say(*STDOUT, \@headers);  # print the headers

while (my $row = $csv->getline($in)) {

  # note: perl arrays start from zero, not one. So $row->[0] is
  # the first field.  $row->[3] is the fourth.

  if ($row->[0] =~ m/$search/i && $row->[3] == $year) {
    pop @{ $row };  # discard last field (year)
    $csv->say(*STDOUT, $row);
  }

}
close($in);

これを、たとえば、として保存し、シェルスクリプトの場合と同じように -extract.plを使用して実行可能にします。chmod +x extract.pl

質問にはサンプルの入力や出力が示されていないため、意味不明なことをでっち上げなければなりませんでした。

次の入力ファイルがあるとしますinput.csv。

business,description,address,year
"ABC","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"BCD Co.","sells some items","123 Somewhere Street, Somewhere, V1234",2021
"BBB Pty Ltd","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"BXYZ","sells some items","123 Somewhere Street, Somewhere, V1234",2021
"CDE","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"DEF","sells some items","123 Somewhere Street, Somewhere, V1234",2020

次のような出力が生成されます。

$ ./extract.pl input.csv '^b' 2021
business,description,address
BCD Co.,sells some items,"123 Somewhere Street, Somewhere, V1234"
BXYZ,sells some items,"123 Somewhere Street, Somewhere, V1234"

つまり、2021 年で「B」または「b」で始まるすべてのビジネス名 (正規表現の一致では大文字と小文字は区別されません)。最初の 3 つのフィールドのみが印刷されます。

出力では、必要な場所（フィールド内にカンマがある場合）のみにフィールドを引用符で囲んでいることに注意してください。スペースを含むフィールドも引用符で囲みたい場合は、スクリプトでをに変更しますquote_space => 0（quote_space => 1または、スペースを含むフィールドを引用符で囲むのはのデフォルトなので、その行を削除しますText::CSV）。

Answer 1