Hacer coincidir 3 o más palabras de campos en archivos csv separados

Question

Puede haber una solución más centrada en el shell (¿awk?), pero normalmente recurro a ella perlcuando el problema se vuelve tan complejo. Aquí hay un script en Perl que lee todo csv2en la memoria, recopilando las líneas como claves en un hash cuyos valores son los títulos correspondientes.

Luego recorre csv1, extrae el título y luego, para cada título de csv2, cuenta el número de veces que se ve cada palabra del título. Si es mayor que desired, se imprime el título coincidente, junto con su línea "fuente" de csv1.

#!/usr/bin/env perl

my @csv2 = ();
open CSV2, "<csv2" or die;
@csv2=<CSV2>;
close CSV2;

my %csv2hash = ();
for (@csv2) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  $csv2hash{$_} = $title;
}

open CSV1, "<csv1" or die;
while (<CSV1>) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  my @titlewords = split /\s+/, $title;    #/ get words
  my $desired = 3;
  my $matched = 0;
  foreach my $csv2 (keys %csv2hash) {
    my $count = 0;
    my $value = $csv2hash{$csv2};
    foreach my $word (@titlewords) {
      ++$count if $value =~ /\b$word\b/i;
      last if $count >= $desired;
    }
    if ($count >= $desired) {
      print "$csv2\n";
      ++$matched;
    }
  }
  print "$_\n" if $matched;
}
close CSV1;

Answer 1

Puede haber una solución más centrada en el shell (¿awk?), pero normalmente recurro a ella perlcuando el problema se vuelve tan complejo. Aquí hay un script en Perl que lee todo csv2en la memoria, recopilando las líneas como claves en un hash cuyos valores son los títulos correspondientes.

Luego recorre csv1, extrae el título y luego, para cada título de csv2, cuenta el número de veces que se ve cada palabra del título. Si es mayor que desired, se imprime el título coincidente, junto con su línea "fuente" de csv1.

#!/usr/bin/env perl

my @csv2 = ();
open CSV2, "<csv2" or die;
@csv2=<CSV2>;
close CSV2;

my %csv2hash = ();
for (@csv2) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  $csv2hash{$_} = $title;
}

open CSV1, "<csv1" or die;
while (<CSV1>) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  my @titlewords = split /\s+/, $title;    #/ get words
  my $desired = 3;
  my $matched = 0;
  foreach my $csv2 (keys %csv2hash) {
    my $count = 0;
    my $value = $csv2hash{$csv2};
    foreach my $word (@titlewords) {
      ++$count if $value =~ /\b$word\b/i;
      last if $count >= $desired;
    }
    if ($count >= $desired) {
      print "$csv2\n";
      ++$matched;
    }
  }
  print "$_\n" if $matched;
}
close CSV1;

Hacer coincidir 3 o más palabras de campos en archivos csv separados

Respuesta1

información relacionada