Hasta donde yo sé, el algoritmo dentro de la herramienta rsync dividirá el archivo y calculará un hash para cada segmento. Así que supongo que hay archivos en los que el algoritmo hash reconstruirá un archivo sin transferir menos datos. Supongo que un archivo con sólo ceros será un buen candidato, ¿verdad?
Respuesta1
El algoritmo rsync es más sofisticado que eso. Los hashes para segmentos de archivos se calculan para el archivo remoto y se transmiten al rsync local. El rsync local utiliza estos hashes para encontrar secciones de archivos coincidentes en el archivo local en cualquier lugar donde se encuentren. Estas secciones coincidentes no se transmiten; En su lugar, se envían tokens que le dicen al rsync remoto cómo reproducir esta sección, que es la forma en que rsync evita transmitir todo el archivo.
Por lo tanto, los archivos óptimos para rsync son aquellos con grandes cantidades de datos en común, quizás desplazados por inserciones y eliminaciones, por ejemplo, los tipos de archivos producidos por actividades típicas de edición humana. Esto no es sorprendente ya que, como escribió el autor de rsync, Andrew Tridgell, en sutesis doctoral, comenzó a considerar el algoritmo rsync mientras esperaba impacientemente que los archivos fuente del programa se actualizaran a través de un enlace de módem.