プレーンテキストデータを処理する

Question 1

好みの言語を選択します。Perl はテキストに適しています。Python、PHP、Ruby も、少し遅くなりますが問題ありません。
まずキーファイルを読み取ります:
- key,data各行をとにkey分割しdata、
- 次に、両方を辞書/ハッシュ/配列に保存します。keys[data] = key
- counts[data] = 0言語が初期化を要求する場合も
すべてのデータファイルを読み取ります:
1. 正規表現を使用して各行の先頭にある「TEXT-NUMBER」データを検索します。
2. counts[data]1ずつ増加し、
3. そして、すぐにkeys[data]、行、およびを出力しますcounts[data]。

私は Perl と Python の両方でサンプルスクリプトを書いたので、どちらかをお選びください。

プロセス.pl

#!/usr/bin/env perl
use strict;

sub usage {
    print "Usage: $0 <key_file> <data_file...>\n";
    return 2;
}

my $keys_file = shift(@ARGV) // exit(usage);
my @data_files = @ARGV;

my %keys;   # $data => $primarykey
my %counts; # $data => $count

# Read keys

open(my $fh, "<", $keys_file) or die "$!";
while (my $line = <$fh>) {
    chomp($line);
    my ($key, $datum) = split(/,/, $line, 2);
    if (!defined $datum) {
        warn "$keys_file: line $. not in KEY,DATA format: '$line'\n";
        next;
    }

    $keys{$datum} = $key;
    $counts{$datum} = 0;
}
close($fh);

# Read and output data

my $ex = qr/^(\w+-\d+)\w*/;
for my $data_file (@data_files) {
    open(my $fh, "<", $data_file) or die "$!";
    while (my $line = <$fh>) {
        chomp($line);
        if ($line =~ /$ex/) {
            my $datum = $1;
            if (!defined $keys{$datum}) {
                warn "no primary key found for data '$datum'\n";
                next;
            }

            # Increment count, then print processed line immediately
            $counts{$datum}++;
            print "$keys{$datum},$&,$counts{$datum}\n";
        }
        else {
            warn "$data_file: line $. does not begin with TEXT-NUMBER: '$_'\n";
        }
    }
    close($fh);
}

プロセス.py

#!/usr/bin/env python
from __future__ import print_function
import sys
import re

def usage():
    print("Usage: %s <key_file> <data_file...>" % sys.argv[0])
    return 2

try:
    keys_file = sys.argv[1]
    data_files = sys.argv[2:]
except IndexError:
    sys.exit(usage())
except ValueError:
    sys.exit(usage())

keys = {}
counts = {}

# Read keys

for line in open(keys_file, "r"):
    try:
        key, datum = line.strip().split(",", 1)
    except ValueError:
        print("%s: line not in KEY,DATA format: %r" \
            % (keys_file, line.strip()), file=sys.stderr)
        continue

    keys[datum] = key
    counts[datum] = 0

# Read and output data

ex = re.compile(r'^(\w+-\d+)\w*')
for data_file in data_files:
    for line in open(data_file, "r"):
        line = line.strip()
        m = re.match(ex, line)
        if m:
            datum = m.group(1)
            if datum not in keys:
                print("no primary key found for data %r" % datum,
                    file=sys.stderr)
                continue

            # Increment count, then print processed line immediately
            counts[datum] += 1
            print("%s,%s,%d" % (keys[datum], m.group(0), counts[datum]))
        else:
            print("%s: line does not begin with TEXT-NUMBER: %r" \
                % (data_file, line.strip()), file=sys.stderr)

Answer

好みの言語を選択します。Perl はテキストに適しています。Python、PHP、Ruby も、少し遅くなりますが問題ありません。
まずキーファイルを読み取ります:
- key,data各行をとにkey分割しdata、
- 次に、両方を辞書/ハッシュ/配列に保存します。keys[data] = key
- counts[data] = 0言語が初期化を要求する場合も
すべてのデータファイルを読み取ります:
1. 正規表現を使用して各行の先頭にある「TEXT-NUMBER」データを検索します。
2. counts[data]1ずつ増加し、
3. そして、すぐにkeys[data]、行、およびを出力しますcounts[data]。

私は Perl と Python の両方でサンプルスクリプトを書いたので、どちらかをお選びください。

プロセス.pl

#!/usr/bin/env perl
use strict;

sub usage {
    print "Usage: $0 <key_file> <data_file...>\n";
    return 2;
}

my $keys_file = shift(@ARGV) // exit(usage);
my @data_files = @ARGV;

my %keys;   # $data => $primarykey
my %counts; # $data => $count

# Read keys

open(my $fh, "<", $keys_file) or die "$!";
while (my $line = <$fh>) {
    chomp($line);
    my ($key, $datum) = split(/,/, $line, 2);
    if (!defined $datum) {
        warn "$keys_file: line $. not in KEY,DATA format: '$line'\n";
        next;
    }

    $keys{$datum} = $key;
    $counts{$datum} = 0;
}
close($fh);

# Read and output data

my $ex = qr/^(\w+-\d+)\w*/;
for my $data_file (@data_files) {
    open(my $fh, "<", $data_file) or die "$!";
    while (my $line = <$fh>) {
        chomp($line);
        if ($line =~ /$ex/) {
            my $datum = $1;
            if (!defined $keys{$datum}) {
                warn "no primary key found for data '$datum'\n";
                next;
            }

            # Increment count, then print processed line immediately
            $counts{$datum}++;
            print "$keys{$datum},$&,$counts{$datum}\n";
        }
        else {
            warn "$data_file: line $. does not begin with TEXT-NUMBER: '$_'\n";
        }
    }
    close($fh);
}

プロセス.py

#!/usr/bin/env python
from __future__ import print_function
import sys
import re

def usage():
    print("Usage: %s <key_file> <data_file...>" % sys.argv[0])
    return 2

try:
    keys_file = sys.argv[1]
    data_files = sys.argv[2:]
except IndexError:
    sys.exit(usage())
except ValueError:
    sys.exit(usage())

keys = {}
counts = {}

# Read keys

for line in open(keys_file, "r"):
    try:
        key, datum = line.strip().split(",", 1)
    except ValueError:
        print("%s: line not in KEY,DATA format: %r" \
            % (keys_file, line.strip()), file=sys.stderr)
        continue

    keys[datum] = key
    counts[datum] = 0

# Read and output data

ex = re.compile(r'^(\w+-\d+)\w*')
for data_file in data_files:
    for line in open(data_file, "r"):
        line = line.strip()
        m = re.match(ex, line)
        if m:
            datum = m.group(1)
            if datum not in keys:
                print("no primary key found for data %r" % datum,
                    file=sys.stderr)
                continue

            # Increment count, then print processed line immediately
            counts[datum] += 1
            print("%s,%s,%d" % (keys[datum], m.group(0), counts[datum]))
        else:
            print("%s: line does not begin with TEXT-NUMBER: %r" \
                % (data_file, line.strip()), file=sys.stderr)

Question 2

私はそうするだろうパイソン使用して正規表現pythonシェルに入力するだけで、インストールされているかどうかを確認できます。

それ以外の場合はパールperlシェルに入力して、インストールされているかどうかを確認してください。正規表現の組み込みサポート。

Answer

私はそうするだろうパイソン使用して正規表現pythonシェルに入力するだけで、インストールされているかどうかを確認できます。

それ以外の場合はパールperlシェルに入力して、インストールされているかどうかを確認してください。正規表現の組み込みサポート。

Question 3

プロセス1

perl count.pl datafile …

count.plは次のようになります

#!perl
use strict;
use warnings;

my %headwordcount;

while (<>) {
  if (/^([A-Z]+-\d+)/) { $headwordcount{$1}++; }
  # else { warn "Bad data: $_"; } # uncomment line for data warnings
}

END {
  foreach (sort keys %headwordcount) {
     print "$_,$headwordcount{$_}\n";
  }
}

未テスト、購入者自己責任。

プロセス2

次のようなものを追加

   my %key;

   BEGIN {
     my $keyfilename = 'primary.key';
     open my $fh, '<', $keyfilename or die "Can't read '$keyfilename' - $!\n";
     while (<$fh>) {
        chomp;
        my ($key,$headword) = split(/,/, $_, 2);
        $key{$headword} = $key;        
     }
     close $fh;
   }

印刷行をEND {}次のように変更します。

   print "$key{$_},$_,$headwordcount{$_}\n";

再度、未テストです。

データファイルにキーファイルにない見出し語が含まれている場合は警告が生成されます。$key{$_}未定義かどうかをチェックし、未定義の場合はキーなしで印刷できます。

Answer

プロセス1

perl count.pl datafile …

count.plは次のようになります

#!perl
use strict;
use warnings;

my %headwordcount;

while (<>) {
  if (/^([A-Z]+-\d+)/) { $headwordcount{$1}++; }
  # else { warn "Bad data: $_"; } # uncomment line for data warnings
}

END {
  foreach (sort keys %headwordcount) {
     print "$_,$headwordcount{$_}\n";
  }
}

未テスト、購入者自己責任。

プロセス2

次のようなものを追加

   my %key;

   BEGIN {
     my $keyfilename = 'primary.key';
     open my $fh, '<', $keyfilename or die "Can't read '$keyfilename' - $!\n";
     while (<$fh>) {
        chomp;
        my ($key,$headword) = split(/,/, $_, 2);
        $key{$headword} = $key;        
     }
     close $fh;
   }

印刷行をEND {}次のように変更します。

   print "$key{$_},$_,$headwordcount{$_}\n";

再度、未テストです。

データファイルにキーファイルにない見出し語が含まれている場合は警告が生成されます。$key{$_}未定義かどうかをチェックし、未定義の場合はキーなしで印刷できます。

プレーンテキストデータを処理する

答え1

答え2

答え3

プロセス1

プロセス2

関連情報