同一のファイルをハードリンクに変換する

Question 1

次の例でmd5は、現在のディレクトリまたはその下にあるすべてのファイルの MD5 ダイジェストを生成します。

find . -type f -exec md5 {} +

BSD ユーティリティがない場合はmd5に置き換えてください。md5sum --tagmd5

ディレクトリに対してこれを行うための簡単なスクリプトを作成しましょう。

#!/bin/bash

tmpdir=${TMPDIR:-/tmp}

if (( $# != 2 )); then
    echo 'Expected two directories as arguments' >&2
    exit 1
fi

i=0
for dir in "$@"; do
    (( ++i ))
    find "$dir" -type f -exec md5 {} + | sort -t '=' -k2 -o "$tmpdir/md5.$i"
done

これは、コマンドラインで 2 つのディレクトリを受け取り、（またはが指している場所）の各ディレクトリごとに 1 つずつ、およびというファイルmd5.1を生成します。これらのファイルは、MD5 ダイジェストに基づいてソートされます。md5.2/tmp$TMPDIR

ファイルは次のようになります

MD5 (<path>) = <MD5 digest>

ファイルごとに 1 行ずつあります。

次に、同じスクリプトで、2 つのファイル間のチェックサムを比較します。

join -t '=' -1 2 -2 2 "$tmpdir"/md5.[12]

これは、チェックサムを結合フィールドとして使用して、2 つのファイル間のリレーショナル「結合」操作を実行します。2 つのフィールドで同じチェックサムを持つ行はすべて結合されて出力されます。

両方のファイルのチェックサムが同じ場合は、次のように出力されます。

<space><MD5 digest>=MD5 (<path1>) =MD5 (<path2>)

これを直接渡してawk2 つのパスを解析することもできます。

awk -F '[()]' 'BEGIN { OFS="\t" } { print $2, $4 }'

は、と-F [()]に基づいて各行をフィールドに分割することを意味します。これを行うと、フィールド 2 と 4 のパスが残ります。()

これは次のように出力されます

<path1><tab><path2>

次に、タブで区切られたパスのペアを読み取り、正しいコマンドを発行してリンクを作成します。

while IFS=$'\t' read -r path1 path2; do
    echo ln -f "$path1" "$path2"
done

要約すれば：

#!/bin/bash

tmpdir=${TMPDIR:-/tmp}

if (( $# != 2 )); then
    echo 'Expected two directories as arguments' >&2
    exit 1
fi

i=0
for dir in "$@"; do
    (( ++i ))
    find "$dir" -type f -exec md5 {} + | sort -t '=' -k2 -o "$tmpdir/md5.$i"
done

join -t '=' -1 2 -2 2 "$tmpdir"/md5.[12] |
awk -F '\\)|\\(' 'BEGIN { OFS="\t" } { print $2, $4 }' |
while IFS=$'\t' read -r path1 path2; do
    echo ln -f "$path1" "$path2"
done

rm -f "$tmpdir"/md5.[12]

インechoループwhileは安全のためにあります。一度実行して何が起こるかを確認し、正しく動作していると確信できる場合はインループを削除して再度実行してください。

ハードリンクはパーティションをまたぐことはできないことに注意してください。つまり、両方のディレクトリが同じパーティションに存在する必要があります。2番重複が見つかった場合、ディレクトリは上書きされます。結果に満足するまで、元のファイルのバックアップをどこかに保存してください。

(ファイル名にまたは)またはタブが含まれている場合、このソリューションは正しく機能しないことに注意してください。

Answer