Encontrar y eliminar archivos duplicados en OSX con un script

Question 1

En primer lugar, tendrá que reordenar la primera línea de comando para mantener el orden de los archivos encontrados por el comando de búsqueda:

find . -size 20 ! -type d -exec cksum {} \; | tee /tmp/f.tmp | cut -f 1,2 -d ‘ ‘ | sort | uniq -d | grep -hif – /tmp/f.tmp > duplicates.txt

(Nota: para fines de prueba en mi máquina utilicé find . -type f -exec cksum {} \;)

En segundo lugar, una forma de imprimir todos los duplicados excepto el primero es mediante el uso de un archivo auxiliar, digamos /tmp/f2.tmp. Entonces podríamos hacer algo como:

while read line; do
    checksum=$(echo "$line" | cut -f 1,2 -d' ')
    file=$(echo "$line" | cut -f 3 -d' ')

    if grep "$checksum" /tmp/f2.tmp > /dev/null; then
        # /tmp/f2.tmp already contains the checksum
        # print the file name
        # (printf is safer than echo, when for example "$file" starts with "-")
        printf %s\\n "$file"
    else
        echo "$checksum" >> /tmp/f2.tmp
    fi
done < duplicates.txt

Solo asegúrese de que /tmp/f2.tmpexista y esté vacío antes de ejecutarlo, por ejemplo, mediante los siguientes comandos:

rm /tmp/f2.tmp
touch /tmp/f2.tmp

Espero que esto ayude =)

Answer

En primer lugar, tendrá que reordenar la primera línea de comando para mantener el orden de los archivos encontrados por el comando de búsqueda:

find . -size 20 ! -type d -exec cksum {} \; | tee /tmp/f.tmp | cut -f 1,2 -d ‘ ‘ | sort | uniq -d | grep -hif – /tmp/f.tmp > duplicates.txt

(Nota: para fines de prueba en mi máquina utilicé find . -type f -exec cksum {} \;)

En segundo lugar, una forma de imprimir todos los duplicados excepto el primero es mediante el uso de un archivo auxiliar, digamos /tmp/f2.tmp. Entonces podríamos hacer algo como:

while read line; do
    checksum=$(echo "$line" | cut -f 1,2 -d' ')
    file=$(echo "$line" | cut -f 3 -d' ')

    if grep "$checksum" /tmp/f2.tmp > /dev/null; then
        # /tmp/f2.tmp already contains the checksum
        # print the file name
        # (printf is safer than echo, when for example "$file" starts with "-")
        printf %s\\n "$file"
    else
        echo "$checksum" >> /tmp/f2.tmp
    fi
done < duplicates.txt

Solo asegúrese de que /tmp/f2.tmpexista y esté vacío antes de ejecutarlo, por ejemplo, mediante los siguientes comandos:

rm /tmp/f2.tmp
touch /tmp/f2.tmp

Espero que esto ayude =)

Question 2

Otra opción es utilizar fdupes:

brew install fdupes
fdupes -r .

fdupes -r .busca archivos duplicados de forma recursiva en el directorio actual. Agregar -dpara eliminar los duplicados: se le preguntará qué archivos conservar; si, en cambio, agrega -dN, fdupes siempre conservará el primer archivo y eliminará los demás archivos.

Answer

Otra opción es utilizar fdupes:

brew install fdupes
fdupes -r .

fdupes -r .busca archivos duplicados de forma recursiva en el directorio actual. Agregar -dpara eliminar los duplicados: se le preguntará qué archivos conservar; si, en cambio, agrega -dN, fdupes siempre conservará el primer archivo y eliminará los demás archivos.

Question 3

Escribí un script que cambia el nombre de tus archivos para que coincidan con un hash de su contenido.

Utiliza un subconjunto de los bytes del archivo para que sea rápido y, si hay una colisión, agrega un contador al nombre como este:

3101ace8db9f.jpg
3101ace8db9f (1).jpg
3101ace8db9f (2).jpg

Esto hace que sea fácil revisar y eliminar duplicados por tu cuenta, sin confiar tus fotos al software de otra persona más de lo necesario.

Guion: https://gist.github.com/SimplGy/75bb4fd26a12d4f16da6df1c4e506562

Answer

Escribí un script que cambia el nombre de tus archivos para que coincidan con un hash de su contenido.

Utiliza un subconjunto de los bytes del archivo para que sea rápido y, si hay una colisión, agrega un contador al nombre como este:

3101ace8db9f.jpg
3101ace8db9f (1).jpg
3101ace8db9f (2).jpg

Esto hace que sea fácil revisar y eliminar duplicados por tu cuenta, sin confiar tus fotos al software de otra persona más de lo necesario.

Guion: https://gist.github.com/SimplGy/75bb4fd26a12d4f16da6df1c4e506562

Question 4

Esto se hace con la ayuda de la aplicación EagleFiler, desarrollada porMichael Tsai.

tell application "EagleFiler"

      set _checksums to {}
      set _recordsSeen to {}
      set _records to selected records of browser window 1
      set _trash to trash of document of browser window 1
      repeat with _record in _records
          set _checksum to _record's checksum
          set _matches to my findMatch(_checksum, _checksums, _recordsSeen)
          if _matches is {} then
              set _checksums to {_checksum} & _checksums
              set _recordsSeen to {_record} & _recordsSeen
          else
              set _otherRecord to item 1 of _matches
              if _otherRecord's modification date > _record's modification date 
then

            set _record's container to _trash
            else
                set _otherRecord's container to _trash
                set _checksums to {_checksum} & _checksums
                set _recordsSeen to {_record} & _recordsSeen
            end if
        end if
    end repeat
end tell

on findMatch(_checksum, _checksums, _recordsSeen)

    tell application "EagleFiler"
        if _checksum is "" then return {}
        if _checksums contains _checksum then
            repeat with i from 1 to length of _checksums
                if item i of _checksums is _checksum then
                    return item i of _recordsSeen
                end if
            end repeat
        end if
        return {}
    end tell

end findMatch

También puede eliminar automáticamente los duplicados con el eliminador de archivos duplicados sugerido enesta publicación.

Answer

Esto se hace con la ayuda de la aplicación EagleFiler, desarrollada porMichael Tsai.

tell application "EagleFiler"

      set _checksums to {}
      set _recordsSeen to {}
      set _records to selected records of browser window 1
      set _trash to trash of document of browser window 1
      repeat with _record in _records
          set _checksum to _record's checksum
          set _matches to my findMatch(_checksum, _checksums, _recordsSeen)
          if _matches is {} then
              set _checksums to {_checksum} & _checksums
              set _recordsSeen to {_record} & _recordsSeen
          else
              set _otherRecord to item 1 of _matches
              if _otherRecord's modification date > _record's modification date 
then

            set _record's container to _trash
            else
                set _otherRecord's container to _trash
                set _checksums to {_checksum} & _checksums
                set _recordsSeen to {_record} & _recordsSeen
            end if
        end if
    end repeat
end tell

on findMatch(_checksum, _checksums, _recordsSeen)

    tell application "EagleFiler"
        if _checksum is "" then return {}
        if _checksums contains _checksum then
            repeat with i from 1 to length of _checksums
                if item i of _checksums is _checksum then
                    return item i of _recordsSeen
                end if
            end repeat
        end if
        return {}
    end tell

end findMatch

También puede eliminar automáticamente los duplicados con el eliminador de archivos duplicados sugerido enesta publicación.

Encontrar y eliminar archivos duplicados en OSX con un script

Respuesta1

Respuesta2

Respuesta3

Respuesta4

información relacionada