符合單獨 csv 檔案中欄位中的 3 個或更多單字

Question

perl可能有一個更以 shell 為中心的解決方案（awk？），但當問題變得如此複雜時我通常會轉向。這是一個 perl 腳本，它將所有內容讀csv2入內存，將行作為鍵收集到散列中，其值是相應的標題。

然後循環遍歷csv1，取出標題，然後對於中的每個標題csv2，計算標題中每個單字出現的次數。如果大於desired，則列印符合的標題及其來自的「來源」行csv1。

#!/usr/bin/env perl

my @csv2 = ();
open CSV2, "<csv2" or die;
@csv2=<CSV2>;
close CSV2;

my %csv2hash = ();
for (@csv2) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  $csv2hash{$_} = $title;
}

open CSV1, "<csv1" or die;
while (<CSV1>) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  my @titlewords = split /\s+/, $title;    #/ get words
  my $desired = 3;
  my $matched = 0;
  foreach my $csv2 (keys %csv2hash) {
    my $count = 0;
    my $value = $csv2hash{$csv2};
    foreach my $word (@titlewords) {
      ++$count if $value =~ /\b$word\b/i;
      last if $count >= $desired;
    }
    if ($count >= $desired) {
      print "$csv2\n";
      ++$matched;
    }
  }
  print "$_\n" if $matched;
}
close CSV1;

Answer 1

perl可能有一個更以 shell 為中心的解決方案（awk？），但當問題變得如此複雜時我通常會轉向。這是一個 perl 腳本，它將所有內容讀csv2入內存，將行作為鍵收集到散列中，其值是相應的標題。

然後循環遍歷csv1，取出標題，然後對於中的每個標題csv2，計算標題中每個單字出現的次數。如果大於desired，則列印符合的標題及其來自的「來源」行csv1。

#!/usr/bin/env perl

my @csv2 = ();
open CSV2, "<csv2" or die;
@csv2=<CSV2>;
close CSV2;

my %csv2hash = ();
for (@csv2) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  $csv2hash{$_} = $title;
}

open CSV1, "<csv1" or die;
while (<CSV1>) {
  chomp;
  my ($title) = $_ =~ /^.+?,\s*([^,]+?),/; #/ match the title 
  my @titlewords = split /\s+/, $title;    #/ get words
  my $desired = 3;
  my $matched = 0;
  foreach my $csv2 (keys %csv2hash) {
    my $count = 0;
    my $value = $csv2hash{$csv2};
    foreach my $word (@titlewords) {
      ++$count if $value =~ /\b$word\b/i;
      last if $count >= $desired;
    }
    if ($count >= $desired) {
      print "$csv2\n";
      ++$matched;
    }
  }
  print "$_\n" if $matched;
}
close CSV1;

符合單獨 csv 檔案中欄位中的 3 個或更多單字

答案1

相關內容