Как удалить дубликаты файлов в каталоге?

Question 1

Баш 4.x

#!/bin/bash
declare -A arr
shopt -s globstar

for file in **; do
  [[ -f "$file" ]] || continue
   
  read cksm _ < <(md5sum "$file")
  if ((arr[$cksm]++)); then 
    echo "rm $file"
  fi
done

Это и рекурсивно, и обрабатывает любые имена файлов. Недостатком является то, что для возможности использования ассоциативных массивов и рекурсивного поиска требуется версия 4.x. Удалите , echoесли вам нравятся результаты.

версия gawk

gawk '
  {
    cmd="md5sum " q FILENAME q
    cmd | getline cksm
    close(cmd)
    sub(/ .*$/,"",cksm)
    if(a[cksm]++){
      cmd="echo rm " q FILENAME q
      system(cmd)
      close(cmd)
    }
    nextfile
  }' q='"' *

Обратите внимание, что это все равно сломается для файлов, в имени которых есть двойные кавычки. Нет реального способа обойти это с помощью awk. Удалите , echoесли вам нравятся результаты.

Answer

Баш 4.x

#!/bin/bash
declare -A arr
shopt -s globstar

for file in **; do
  [[ -f "$file" ]] || continue
   
  read cksm _ < <(md5sum "$file")
  if ((arr[$cksm]++)); then 
    echo "rm $file"
  fi
done

Это и рекурсивно, и обрабатывает любые имена файлов. Недостатком является то, что для возможности использования ассоциативных массивов и рекурсивного поиска требуется версия 4.x. Удалите , echoесли вам нравятся результаты.

версия gawk

gawk '
  {
    cmd="md5sum " q FILENAME q
    cmd | getline cksm
    close(cmd)
    sub(/ .*$/,"",cksm)
    if(a[cksm]++){
      cmd="echo rm " q FILENAME q
      system(cmd)
      close(cmd)
    }
    nextfile
  }' q='"' *

Обратите внимание, что это все равно сломается для файлов, в имени которых есть двойные кавычки. Нет реального способа обойти это с помощью awk. Удалите , echoесли вам нравятся результаты.

Question 2

fdupesэто инструмент по вашему выбору. Чтобы найти все дубликаты файлов (по содержанию, а не по имени) в текущем каталоге:

fdupes -r .

Чтобы вручную подтвердить удаление дублирующихся файлов:

fdupes -r -d .

Чтобы автоматически удалить все копии, кроме первой, каждого дублированного файла (будьте осторожны, это предупреждение, это на самом деле удаляет файлы, как и было запрошено):

fdupes -r -f . | grep -v '^$' | xargs rm -v

Я бы рекомендовал вручную проверять файлы перед удалением:

fdupes -rf . | grep -v '^$' > files
... # check files
xargs -a files rm -v

Answer

fdupesэто инструмент по вашему выбору. Чтобы найти все дубликаты файлов (по содержанию, а не по имени) в текущем каталоге:

fdupes -r .

Чтобы вручную подтвердить удаление дублирующихся файлов:

fdupes -r -d .

Чтобы автоматически удалить все копии, кроме первой, каждого дублированного файла (будьте осторожны, это предупреждение, это на самом деле удаляет файлы, как и было запрошено):

fdupes -r -f . | grep -v '^$' | xargs rm -v

Я бы рекомендовал вручную проверять файлы перед удалением:

fdupes -rf . | grep -v '^$' > files
... # check files
xargs -a files rm -v

Question 3

Я рекомендуюfclones.

Fclones — это современный инструмент для поиска и удаления дубликатов файлов, написанный на Rust и доступный в большинстве дистрибутивов Linux и macOS.

Примечательные особенности:

поддерживает пробелы, не-ASCII и управляющие символы в путях к файлам
позволяет осуществлять поиск в нескольких деревьях каталогов
уважает файлы .gitignore
безопасно: позволяет вручную проверять список дубликатов перед выполнением каких-либо действий с ними
предлагает множество опций для фильтрации/выбора файлов для удаления или сохранения
очень быстро

Для поиска дубликатов в текущем каталоге просто запустите:

fclones group . >dupes.txt

Затем вы можете проверить dupes.txtфайл, чтобы проверить, найдены ли нужные дубликаты (вы также можете изменить этот список по своему усмотрению).

Наконец, удалите/свяжите/переместите дублирующиеся файлы одним из следующих способов:

fclones remove <dupes.txt
fclones link <dupes.txt
fclones move target <dupes.txt
fclones dedupe <dupes.txt   # copy-on-write deduplication on some filesystems

Пример:

pkolaczk@p5520:~/Temp$ mkdir files
pkolaczk@p5520:~/Temp$ echo foo >files/foo1.txt
pkolaczk@p5520:~/Temp$ echo foo >files/foo2.txt
pkolaczk@p5520:~/Temp$ echo foo >files/foo3.txt

pkolaczk@p5520:~/Temp$ fclones group files >dupes.txt
[2022-05-13 18:48:25.608] fclones:  info: Started grouping
[2022-05-13 18:48:25.613] fclones:  info: Scanned 4 file entries
[2022-05-13 18:48:25.613] fclones:  info: Found 3 (12 B) files matching selection criteria
[2022-05-13 18:48:25.614] fclones:  info: Found 2 (8 B) candidates after grouping by size
[2022-05-13 18:48:25.614] fclones:  info: Found 2 (8 B) candidates after grouping by paths and file identifiers
[2022-05-13 18:48:25.619] fclones:  info: Found 2 (8 B) candidates after grouping by prefix
[2022-05-13 18:48:25.620] fclones:  info: Found 2 (8 B) candidates after grouping by suffix
[2022-05-13 18:48:25.620] fclones:  info: Found 2 (8 B) redundant files

pkolaczk@p5520:~/Temp$ cat dupes.txt
# Report by fclones 0.24.0
# Timestamp: 2022-05-13 18:48:25.621 +0200
# Command: fclones group files
# Base dir: /home/pkolaczk/Temp
# Total: 12 B (12 B) in 3 files in 1 groups
# Redundant: 8 B (8 B) in 2 files
# Missing: 0 B (0 B) in 0 files
6109f093b3fd5eb1060989c990d1226f, 4 B (4 B) * 3:
    /home/pkolaczk/Temp/files/foo1.txt
    /home/pkolaczk/Temp/files/foo2.txt
    /home/pkolaczk/Temp/files/foo3.txt

pkolaczk@p5520:~/Temp$ fclones remove <dupes.txt
[2022-05-13 18:48:41.002] fclones:  info: Started deduplicating
[2022-05-13 18:48:41.003] fclones:  info: Processed 2 files and reclaimed 8 B space

pkolaczk@p5520:~/Temp$ ls files
foo1.txt

Answer

Я рекомендуюfclones.

Fclones — это современный инструмент для поиска и удаления дубликатов файлов, написанный на Rust и доступный в большинстве дистрибутивов Linux и macOS.

Примечательные особенности:

поддерживает пробелы, не-ASCII и управляющие символы в путях к файлам
позволяет осуществлять поиск в нескольких деревьях каталогов
уважает файлы .gitignore
безопасно: позволяет вручную проверять список дубликатов перед выполнением каких-либо действий с ними
предлагает множество опций для фильтрации/выбора файлов для удаления или сохранения
очень быстро

Для поиска дубликатов в текущем каталоге просто запустите:

fclones group . >dupes.txt

Затем вы можете проверить dupes.txtфайл, чтобы проверить, найдены ли нужные дубликаты (вы также можете изменить этот список по своему усмотрению).

Наконец, удалите/свяжите/переместите дублирующиеся файлы одним из следующих способов:

fclones remove <dupes.txt
fclones link <dupes.txt
fclones move target <dupes.txt
fclones dedupe <dupes.txt   # copy-on-write deduplication on some filesystems

Пример:

pkolaczk@p5520:~/Temp$ mkdir files
pkolaczk@p5520:~/Temp$ echo foo >files/foo1.txt
pkolaczk@p5520:~/Temp$ echo foo >files/foo2.txt
pkolaczk@p5520:~/Temp$ echo foo >files/foo3.txt

pkolaczk@p5520:~/Temp$ fclones group files >dupes.txt
[2022-05-13 18:48:25.608] fclones:  info: Started grouping
[2022-05-13 18:48:25.613] fclones:  info: Scanned 4 file entries
[2022-05-13 18:48:25.613] fclones:  info: Found 3 (12 B) files matching selection criteria
[2022-05-13 18:48:25.614] fclones:  info: Found 2 (8 B) candidates after grouping by size
[2022-05-13 18:48:25.614] fclones:  info: Found 2 (8 B) candidates after grouping by paths and file identifiers
[2022-05-13 18:48:25.619] fclones:  info: Found 2 (8 B) candidates after grouping by prefix
[2022-05-13 18:48:25.620] fclones:  info: Found 2 (8 B) candidates after grouping by suffix
[2022-05-13 18:48:25.620] fclones:  info: Found 2 (8 B) redundant files

pkolaczk@p5520:~/Temp$ cat dupes.txt
# Report by fclones 0.24.0
# Timestamp: 2022-05-13 18:48:25.621 +0200
# Command: fclones group files
# Base dir: /home/pkolaczk/Temp
# Total: 12 B (12 B) in 3 files in 1 groups
# Redundant: 8 B (8 B) in 2 files
# Missing: 0 B (0 B) in 0 files
6109f093b3fd5eb1060989c990d1226f, 4 B (4 B) * 3:
    /home/pkolaczk/Temp/files/foo1.txt
    /home/pkolaczk/Temp/files/foo2.txt
    /home/pkolaczk/Temp/files/foo3.txt

pkolaczk@p5520:~/Temp$ fclones remove <dupes.txt
[2022-05-13 18:48:41.002] fclones:  info: Started deduplicating
[2022-05-13 18:48:41.003] fclones:  info: Processed 2 files and reclaimed 8 B space

pkolaczk@p5520:~/Temp$ ls files
foo1.txt

Question 4

Как тестировать файлы с уникальным содержимым?

if diff "$file1" "$file2" > /dev/null; then
    ...

Как получить список файлов в каталоге?

files="$( find ${files_dir} -type f )"

Мы можем получить любые 2 файла из этого списка и проверить, отличаются ли их имена и совпадает ли содержимое.

#!/bin/bash
# removeDuplicates.sh

files_dir=$1
if [[ -z "$files_dir" ]]; then
    echo "Error: files dir is undefined"
fi

files="$( find ${files_dir} -type f )"
for file1 in $files; do
    for file2 in $files; do
        # echo "checking $file1 and $file2"
        if [[ "$file1" != "$file2" && -e "$file1" && -e "$file2" ]]; then
            if diff "$file1" "$file2" > /dev/null; then
                echo "$file1 and $file2 are duplicates"
                rm -v "$file2"
            fi
        fi
    done
done

Например, у нас есть некий каталог:

$> ls .tmp -1
all(2).txt
all.txt
file
text
text(2)

Итак, существует только 3 уникальных файла.

Давайте запустим этот скрипт:

$> ./removeDuplicates.sh .tmp/
.tmp/text(2) and .tmp/text are duplicates
removed `.tmp/text'
.tmp/all.txt and .tmp/all(2).txt are duplicates
removed `.tmp/all(2).txt'

И у нас остается всего 3 файла.

$> ls .tmp/ -1
all.txt
file
text(2)

Answer

Как тестировать файлы с уникальным содержимым?

if diff "$file1" "$file2" > /dev/null; then
    ...

Как получить список файлов в каталоге?

files="$( find ${files_dir} -type f )"

Мы можем получить любые 2 файла из этого списка и проверить, отличаются ли их имена и совпадает ли содержимое.

#!/bin/bash
# removeDuplicates.sh

files_dir=$1
if [[ -z "$files_dir" ]]; then
    echo "Error: files dir is undefined"
fi

files="$( find ${files_dir} -type f )"
for file1 in $files; do
    for file2 in $files; do
        # echo "checking $file1 and $file2"
        if [[ "$file1" != "$file2" && -e "$file1" && -e "$file2" ]]; then
            if diff "$file1" "$file2" > /dev/null; then
                echo "$file1 and $file2 are duplicates"
                rm -v "$file2"
            fi
        fi
    done
done

Например, у нас есть некий каталог:

$> ls .tmp -1
all(2).txt
all.txt
file
text
text(2)

Итак, существует только 3 уникальных файла.

Давайте запустим этот скрипт:

$> ./removeDuplicates.sh .tmp/
.tmp/text(2) and .tmp/text are duplicates
removed `.tmp/text'
.tmp/all.txt and .tmp/all(2).txt are duplicates
removed `.tmp/all(2).txt'

И у нас остается всего 3 файла.

$> ls .tmp/ -1
all.txt
file
text(2)

Как удалить дубликаты файлов в каталоге?

решение1

Баш 4.x

версия gawk

решение2

решение3

решение4

Связанный контент