побитовое ИЛИ 2 двоичных файлов

побитовое ИЛИ 2 двоичных файлов

Некоторое время назад я предпринял 2 попытки восстановления умирающего жесткого диска; ddrescueсначала я запустил (GNU), а затем сразу ddс ручным поиском. Я хочу получить лучшее из обоих образов. Поскольку все пустые участки в файлах будут просто нулями, побитового И должно быть достаточно для объединения двух файлов.

Есть ли утилита, позволяющая создать файл, представляющий собой ИЛИ двух входных файлов?

(Я использую ArchLinux, но я с удовольствием установим его из исходников, если его нет в репозиториях)

решение1

Я не знаю утилиты, которая делает это, но написать программу для этого должно быть довольно просто. Вот скелетный пример на python:

#!/usr/bin/env python
f=open("/path/to/image1","rb")
g=open("/path/to/image2","rb")
h=open("/path/to/imageMerge","wb") #Output file
while True:
     data1=f.read(1) #Read a byte
     data2=g.read(1) #Read a byte
     if (data1 and data2): #Check that neither file has ended
          h.write(chr(ord(data1) | ord(data2))) #Or the bytes
     elif (data1): #If image1 is longer, clean up
          h.write(data1) 
          data1=f.read()
          h.write(data1)
          break
     elif (data2): #If image2 is longer, clean up
          h.write(data2)
          data2=g.read()
          h.write(data2)
          break
     else: #No cleanup needed if images are same length
          break
f.close()
g.close() 
h.close()

Или программа на языке C, которая должна работать быстрее (но в ней гораздо выше вероятность наличия незамеченной ошибки):

#include <stdio.h>
#include <string.h>

#define BS 1024

int main() {
    FILE *f1,*f2,*fout;
    size_t bs1,bs2;
    f1=fopen("image1","r");
    f2=fopen("image2","r");
    fout=fopen("imageMerge","w");
    if(!(f1 && f2 && fout))
        return 1;
    char buffer1[BS];
    char buffer2[BS];
    char bufferout[BS];
    while(1) {
        bs1=fread(buffer1,1,BS,f1); //Read files to buffers, BS bytes at a time
        bs2=fread(buffer2,1,BS,f2);
        size_t x;
        for(x=0;bs1 && bs2;--bs1,--bs2,++x) //If we have data in both, 
            bufferout[x]=buffer1[x] | buffer2[x]; //write OR of the two to output buffer
        memcpy(bufferout+x,buffer1+x,bs1); //If bs1 is longer, copy the rest to the output buffer
        memcpy(bufferout+x,buffer2+x,bs2); //If bs2 is longer, copy the rest to the output buffer
        x+=bs1+bs2;
        fwrite(bufferout,1,x,fout);
        if(x!=BS)
            break;
    }
}

решение2

Питон

with open('file1', 'rb') as in1, open('file2', 'rb') as in2, open('outfile', 'wb') as out:
    while True:
        bytes1 = in1.read(1024)
        bytes2 = in2.read(1024)
        if not bytes1 or not bytes2:
            break
        out.write(bytes(b1 | b2 for (b1, b2) in zip(bytes1, bytes2)))

Это примерно в 10 раз быстрее, чем решение Криса на Python, поскольку считывает 1024 байта за раз. Он также использует шаблон, with openпоскольку он более надежен при закрытии файлов (например, в случае ошибки).

Похоже, у меня это работает с Python 3.6.3 (успешное объединение двух частичных торрент-файлов), но тщательное тестирование не проводилось.

Возможно, if ...: breakшаблон можно было бы удалить и вместо него использоватьwhile in1 or in2:

решение3

Это не побитовое ИЛИ, но работает для (целых блоков) нулей:

dd conv=sparse,notrunc if=foo of=baz
dd conv=sparse,notrunc if=bar of=baz

Из-за sparseэтого он пропускает запись всего, что равно нулю в исходном файле.

Таким образом, baz будет выглядеть как bar, плюс то, что было нулем в bar, но не было нулем в foo.

Другими словами, если в foo и bar есть ненулевые данные, которые не идентичны, то bar выигрывает.

Связанный контент