パス/ファイルのリストから共通パスを見つける方法

Question 1

この回答では Python を使用しています。OP は親によってカバーされているディレクトリを削除したいと考えていたため、私はカバーを削除する別のプログラムを書き始めました。

例：

$ echo -e '/home/dave\n/home/dave/file1\n/home/dave/sub2/file2\n/home/phil\n/home/phil/file1' | removecoverings 
/home/phil
/home/dave

コマンドのコードremovecoverings:

#!/usr/bin/env python2

import sys

def list_startswith(a, b):
    if not len(a) >= len(b):
        return False
    return all(x == y for x,y in zip(a[:len(b)],b))

def removecoverings(it):
    g = list(it)
    g.sort(key=lambda v: len(v.split('/')), reverse=True)
    o = []
    while g:
        c = g.pop()
        d = []
        for v in g:
            if list_startswith(v.split('/'), c.split('/')):
                d.append(v)
        for v in d:
            g.remove(v)
        o.append(c)
    return o

for o in removecoverings(l.strip() for l in sys.stdin.readlines()):
    print o

この回答では Python を使用しています。また、共通プレフィックスは文字列単位ではなくコンポーネント単位で行われます。/ex/ampleとの共通プレフィックスはではない/exa/mpleため、パスには適しています。これは、必要なのは最大共通プレフィックスであり、カバーが削除されたプレフィックスのリストではないことを前提としています。とがある場合、ではなくが期待されます。これは、探している回答ではありません。//ex/home/dave /home/dave/file1 /home/phil /home/phil/file2/home/dave /home/phil/home

例：

$ echo -e '/home/dave\n/home/dave/file1\n/home/dave/sub2/file2' | commonprefix 
/home/dave

コマンドのコードcommonprefix:

#!/usr/bin/env python2

import sys

def commonprefix(l):
    # this unlike the os.path.commonprefix version
    # always returns path prefixes as it compares
    # path component wise
    cp = []
    ls = [p.split('/') for p in l]
    ml = min( len(p) for p in ls )

    for i in range(ml):

        s = set( p[i] for p in ls )         
        if len(s) != 1:
            break

        cp.append(s.pop())

    return '/'.join(cp)

print commonprefix(l.strip() for l in sys.stdin.readlines())

Answer

この回答では Python を使用しています。OP は親によってカバーされているディレクトリを削除したいと考えていたため、私はカバーを削除する別のプログラムを書き始めました。

例：

$ echo -e '/home/dave\n/home/dave/file1\n/home/dave/sub2/file2\n/home/phil\n/home/phil/file1' | removecoverings 
/home/phil
/home/dave

コマンドのコードremovecoverings:

#!/usr/bin/env python2

import sys

def list_startswith(a, b):
    if not len(a) >= len(b):
        return False
    return all(x == y for x,y in zip(a[:len(b)],b))

def removecoverings(it):
    g = list(it)
    g.sort(key=lambda v: len(v.split('/')), reverse=True)
    o = []
    while g:
        c = g.pop()
        d = []
        for v in g:
            if list_startswith(v.split('/'), c.split('/')):
                d.append(v)
        for v in d:
            g.remove(v)
        o.append(c)
    return o

for o in removecoverings(l.strip() for l in sys.stdin.readlines()):
    print o

この回答では Python を使用しています。また、共通プレフィックスは文字列単位ではなくコンポーネント単位で行われます。/ex/ampleとの共通プレフィックスはではない/exa/mpleため、パスには適しています。これは、必要なのは最大共通プレフィックスであり、カバーが削除されたプレフィックスのリストではないことを前提としています。とがある場合、ではなくが期待されます。これは、探している回答ではありません。//ex/home/dave /home/dave/file1 /home/phil /home/phil/file2/home/dave /home/phil/home

例：

$ echo -e '/home/dave\n/home/dave/file1\n/home/dave/sub2/file2' | commonprefix 
/home/dave

コマンドのコードcommonprefix:

#!/usr/bin/env python2

import sys

def commonprefix(l):
    # this unlike the os.path.commonprefix version
    # always returns path prefixes as it compares
    # path component wise
    cp = []
    ls = [p.split('/') for p in l]
    ml = min( len(p) for p in ls )

    for i in range(ml):

        s = set( p[i] for p in ls )         
        if len(s) != 1:
            break

        cp.append(s.pop())

    return '/'.join(cp)

print commonprefix(l.strip() for l in sys.stdin.readlines())

Question 2

入力がソートされている場合、疑似コードは次のようになります。

$seen = last_line;
if current_line begins exactly as $seen then next
else { output current_line; $seen = current_line }

Perl コードに翻訳します (そう、Perl は最も美しいスクリプト言語です):

perl -e '
my $l = "\n";
while (<>) {
    if ($_ !~ /^\Q$l/) {
        print;
        chomp;
        $l = $_;
    }
}
'

クレジット：Ben Bacarisse @bsb.me.uk、comp.lang.perl.misc より。ありがとう、Ben。うまくいきました!

Answer

入力がソートされている場合、疑似コードは次のようになります。

$seen = last_line;
if current_line begins exactly as $seen then next
else { output current_line; $seen = current_line }

Perl コードに翻訳します (そう、Perl は最も美しいスクリプト言語です):

perl -e '
my $l = "\n";
while (<>) {
    if ($_ !~ /^\Q$l/) {
        print;
        chomp;
        $l = $_;
    }
}
'

クレジット：Ben Bacarisse @bsb.me.uk、comp.lang.perl.misc より。ありがとう、Ben。うまくいきました!

Question 3

そして、xpt の回答のワンライナーバージョン。ここでも、ソートされた入力を想定します。

perl -lne 'BEGIN { $l="\n"; }; if ($_ !~ /^\Q$l/) { print $_; $l = $_; }'

サンプル入力を実行する

/home/dave
/home/dave/file1
/home/dave/sub2/file2
/home/phil
/home/phil/file2

使用して

echo -e '/home/dave\n/home/dave/file1\n/home/dave/sub2/file2\n/home/phil\n/home/phil/file2' | perl -lne 'BEGIN { $l="\n"; }; if ($_ !~ /^\Q$l/) { print $_; $l = $_; }'

与える

/home/dave
/home/phil

魔法は、perl のコマンドライン引数にあります。-eコマンドラインでスクリプトを指定し、-nファイルの行を反復処理し (各行をに配置$_)、-l改行を処理します。

このスクリプトは、l最後に表示されたプレフィックスを追跡するためにを使用して動作します。BEGINブロックは最初の行が読み込まれる前に実行され、変数を表示されない文字列 (改行なし) に初期化します。条件文は、ファイルの各行で実行されます ( によって保持されます) $_。条件文はファイルのすべての行で実行され、「行にlプレフィックスとしての現在の値がない場合、行を出力し、の値として保存しますl」という内容です。コマンドライン引数があるため、これは他のスクリプトと基本的に同一です。

問題は、両方のスクリプトが共通のプレフィックスが独自の行として存在すると想定しているため、入力に対して次のような共通のプレフィックスを見つけられないことです。

/home/dave/file1
/home/dave/file2

Answer