Unix - Relacionado con el comando Sed

Question

Si desea trabajar con columnas dentro de una línea en lugar de con toda la línea, entonces awko perlsería una herramienta mucho mejor para este trabajo que sed.

Y, dado que necesita lidiar con campos entre comillas (con comas dentro de ellos), sería mejor que los use perlporque tiene unTexto::CSVmódulo que analiza archivos CSV como ese. Podrías hacerlo con awk, pero tendrías que escribir tu propio analizador para manejar comillas y comas dentro de los campos.

Si está ejecutando Debian o similar, instálelo con apt install libtext-csv-perl. Probablemente otras distribuciones también lo tengan empaquetado. De lo contrario, instálelo con cpan.

El siguiente es un ejemplo bastante simple de lo que puede hacer con Text::CSV. Corre man Text::CSVpara obtener más detalles.

#!/usr/bin/perl

use strict;

use Text::CSV qw(csv);

my ($filename, $search, $year) = @ARGV;

my $csv = Text::CSV->new({allow_whitespace => 1,
                          allow_loose_quotes => 1,
                          quote_space => 0,
                         });

open(my $in, "<", $filename) or die "couldn't open $filename: $!";

my @headers = $csv->header($in);
pop @headers;                   # discard last field from @headers
$csv->say(*STDOUT, \@headers);  # print the headers

while (my $row = $csv->getline($in)) {

  # note: perl arrays start from zero, not one. So $row->[0] is
  # the first field.  $row->[3] is the fourth.

  if ($row->[0] =~ m/$search/i && $row->[3] == $year) {
    pop @{ $row };  # discard last field (year)
    $csv->say(*STDOUT, $row);
  }

}
close($in);

Guarde esto como, por ejemplo, extract.ply hágalo ejecutable con chmod +x extract.pl- igual que lo haría con un script de shell.

No has dado entrada o salida de muestra en tu pregunta, así que tuve que inventar algunas tonterías.

Dado el siguiente archivo de entrada input.csv:

business,description,address,year
"ABC","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"BCD Co.","sells some items","123 Somewhere Street, Somewhere, V1234",2021
"BBB Pty Ltd","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"BXYZ","sells some items","123 Somewhere Street, Somewhere, V1234",2021
"CDE","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"DEF","sells some items","123 Somewhere Street, Somewhere, V1234",2020

Producirá el siguiente resultado:

$ ./extract.pl input.csv '^b' 2021
business,description,address
BCD Co.,sells some items,"123 Somewhere Street, Somewhere, V1234"
BXYZ,sells some items,"123 Somewhere Street, Somewhere, V1234"

es decir, todos los nombres comerciales que comienzan con "B" o "b" (la coincidencia de expresiones regulares no distingue entre mayúsculas y minúsculas) con el año 2021. Solo se imprimen los primeros 3 campos.

Observe cómo el resultado ha citado campos sólo donde es esencial (es decir, donde hay comas dentro de los campos). Si desea que los campos que contienen espacios también se entrecomillan, cambie quote_space => 0a quote_space => 1en el script (o simplemente elimine esa línea ya que citar campos con espacios es la opción predeterminada para Text::CSV)

Answer 1