スパースファイルの内容を表示するにはどうすればいいですか?

スパースファイルの内容を表示するにはどうすればいいですか?

ls -l でサイズを確認すると、「ファイル」のサイズは 15TB と表示されます。

ls -l
total 16
-rw-r--r-- 1 root root 15393162788865 May 30 13:41 file

du コマンドで「ファイル」のサイズを確認すると、次のように表示されます。

du -a file 
12  file

グーグルで調べた結果、このファイルはスパース ファイルである可能性があるという結論に達しました。less、tail、cat、hexdump などのコマンドでこのファイルを読み取ると、非常に時間がかかります。

以下は filefrag の出力です。

filefrag -e file 
Filesystem type is: ef53
File size of file is 15393162788865 (3758096385 blocks of 4096 bytes)
 ext:       logical_offset:        physical_offset: length:   expected: flags:
   0:         0..        0:   22261760..  22261760:      1:            
   1: 3169274812..3169274812:   22268860..  22268860:      1: 3191536572:
   2: 3758096383..3758096383:   22271999..  22271999:      1:  611090431: last
file: 3 extents found

Linux ターミナルから、ホールやゼロのないファイルの内容のみを表示する方法があるかどうかを知りたいです。

答え1

SEEK_DATA新しい Linux システムには、およびSEEK_HOLEの拡張機能がありlseek(2)、これによりアプリはスパース ファイルの読み取り時に「ホール」をスキップできます。

古いシステムでは、ioctl(FIBMAP)使用することができ、基礎となるデバイスからデータを直接読み取ることができます (ただし、機能がFIBMAP必要ですCAP_SYS_RAWIO)。

残念ながら、どちらかを使用している coreutils / standard ユーティリティは知りません。

sparse_cat以下は、非常に大きなスパース ファイルからデータをすぐにダンプするためにこれらを使用する小さなデモです。

例:

$ cc -Wall -O2 sparse_cat.c -s -o sparse_cat

$ echo 1st | dd conv=notrunc status=none bs=1 seek=10M of=/tmp/sparse
$ echo 2nd | dd conv=notrunc status=none bs=1 seek=10G of=/tmp/sparse
$ echo 3rd | dd conv=notrunc status=none bs=1 seek=10T of=/tmp/sparse
$ ls -l /tmp/sparse
-rw-r--r-- 1 ahq ahq 10995116277764 May 30 16:29 /tmp/sparse
$ ./sparse_cat </tmp/sparse >/dev/tty
          a00000           a01000
1st
       280000000        280001000
2nd
     a0000000000      a0000000004
3rd

注: 簡単にするために、ファイルを開くコード (sparse_cat < inputではなく、常に として使用する必要があります) と、 フラグを使用して開かれた tty とsparse_cat input間の不適切な相互作用に対する回避策(明示的に使用) は省略しました。sendfile(2)O_APPEND>/dev/tty

また、データ/ホール範囲にはブロックの粒度があることにも注意してください。1st上記の例の文字列の後には、実際にはblock size - 4ヌル バイトが続きます。

スパース_cat.c

#define _GNU_SOURCE
#include <err.h>
#include <errno.h>
#include <fcntl.h>
#include <limits.h>
#include <stdio.h>
#include <unistd.h>
#include <sys/sendfile.h>

int main(void){
        off_t hole, data, pos, len; typedef unsigned long long ull;
        for(hole = 0;; data = hole){
                if((data = lseek(0, hole, SEEK_DATA)) == -1){
                        if(errno == ENXIO) return 0;
                        err(1, "lseek +data");
                }
                if((hole = lseek(0, data, SEEK_HOLE)) == -1)
                        err(1, "lseek +hole");
                dprintf(2, "%16llx %16llx\n", (ull)data, (ull)hole);
                for(pos = data; pos < hole;){
                        len = hole - pos; if(len > INT_MAX) len = INT_MAX;
                        if((len = sendfile(1, 0, &pos, len)) == 0) return 0;
                        if(len < 0) err(1, "sendfile");
                }
        }
}

関連情報