Correspondência de 3 ou mais palavras de campos em arquivos CSV separados

Question

Pode haver uma solução mais centrada no shell (awk?), Mas geralmente recorro perlquando o problema fica tão complexo. Aqui está um script Perl que lê tudo csv2na memória, coletando as linhas como chaves em um hash cujos valores são os títulos correspondentes.

Em seguida, ele percorre csv1, extrai o título e, para cada título de csv2, conta o número de vezes que cada palavra do título é vista. Se for maior que desired, o título correspondente será impresso, juntamente com a linha "fonte" de csv1.

#!/usr/bin/env perl

my @csv2 = ();
open CSV2, "<csv2" or die;
@csv2=<CSV2>;
close CSV2;

my %csv2hash = ();
for (@csv2) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  $csv2hash{$_} = $title;
}

open CSV1, "<csv1" or die;
while (<CSV1>) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  my @titlewords = split /\s+/, $title;    #/ get words
  my $desired = 3;
  my $matched = 0;
  foreach my $csv2 (keys %csv2hash) {
    my $count = 0;
    my $value = $csv2hash{$csv2};
    foreach my $word (@titlewords) {
      ++$count if $value =~ /\b$word\b/i;
      last if $count >= $desired;
    }
    if ($count >= $desired) {
      print "$csv2\n";
      ++$matched;
    }
  }
  print "$_\n" if $matched;
}
close CSV1;

Answer 1

Pode haver uma solução mais centrada no shell (awk?), Mas geralmente recorro perlquando o problema fica tão complexo. Aqui está um script Perl que lê tudo csv2na memória, coletando as linhas como chaves em um hash cujos valores são os títulos correspondentes.

Em seguida, ele percorre csv1, extrai o título e, para cada título de csv2, conta o número de vezes que cada palavra do título é vista. Se for maior que desired, o título correspondente será impresso, juntamente com a linha "fonte" de csv1.

#!/usr/bin/env perl

my @csv2 = ();
open CSV2, "<csv2" or die;
@csv2=<CSV2>;
close CSV2;

my %csv2hash = ();
for (@csv2) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  $csv2hash{$_} = $title;
}

open CSV1, "<csv1" or die;
while (<CSV1>) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  my @titlewords = split /\s+/, $title;    #/ get words
  my $desired = 3;
  my $matched = 0;
  foreach my $csv2 (keys %csv2hash) {
    my $count = 0;
    my $value = $csv2hash{$csv2};
    foreach my $word (@titlewords) {
      ++$count if $value =~ /\b$word\b/i;
      last if $count >= $desired;
    }
    if ($count >= $desired) {
      print "$csv2\n";
      ++$matched;
    }
  }
  print "$_\n" if $matched;
}
close CSV1;

Correspondência de 3 ou mais palavras de campos em arquivos CSV separados

Responder1

informação relacionada