fusionar varios archivos según la primera columna y ahorrar problemas de memoria

Question 1

Has probado awk? No estoy seguro de que maneje mejor archivos grandes, perlpero podría valer la pena intentarlo:

Dentro de tu script awk:

BEGIN {
    RS=">[0-9]+"
}

FNR==1{next}

NR==FNR {
    a[$1]++
    next
}


$1 in a {
    b[$1]++
    next
}

{
    c[$1]++
}

END {
    for (key in a) {
        if (b[key] == "") {
            printf key"\tfile1:"a[key]"\t\tcount:"a[key]"\n"
        } else {
            printf key"\tfile1:"a[key]"\tfile2:"b[key]"\tcount:"a[key]+b[key]"\n"
        }
    }
    for (key in c) {
        printf key"\t\tfile2:"c[key]"\tcount:"c[key]"\n"
    }
}

Para ejecutarlo:

$ awk -f myscript.awk file1 file2 > output.txt

Lo probé con:

archivo1

>1
ATGCCGTT      file1:1
+
HHHHKKKK

>2
ATTCCAACg        file2:1
+
=#GJLMNB

archivo2

>2
ATGCCGTT       file2:3
+
JJKHHTTT

>3
ATTCCAAC        file2:1
+
=#GJLMNB

Salida en terminal:

ATTCCAACg   file1:1         count:1
ATGCCGTT    file1:1 file2:1 count:2
ATTCCAAC            file2:1 count:1

Answer

Has probado awk? No estoy seguro de que maneje mejor archivos grandes, perlpero podría valer la pena intentarlo:

Dentro de tu script awk:

BEGIN {
    RS=">[0-9]+"
}

FNR==1{next}

NR==FNR {
    a[$1]++
    next
}


$1 in a {
    b[$1]++
    next
}

{
    c[$1]++
}

END {
    for (key in a) {
        if (b[key] == "") {
            printf key"\tfile1:"a[key]"\t\tcount:"a[key]"\n"
        } else {
            printf key"\tfile1:"a[key]"\tfile2:"b[key]"\tcount:"a[key]+b[key]"\n"
        }
    }
    for (key in c) {
        printf key"\t\tfile2:"c[key]"\tcount:"c[key]"\n"
    }
}

Para ejecutarlo:

$ awk -f myscript.awk file1 file2 > output.txt

Lo probé con:

archivo1

>1
ATGCCGTT      file1:1
+
HHHHKKKK

>2
ATTCCAACg        file2:1
+
=#GJLMNB

archivo2

>2
ATGCCGTT       file2:3
+
JJKHHTTT

>3
ATTCCAAC        file2:1
+
=#GJLMNB

Salida en terminal:

ATTCCAACg   file1:1         count:1
ATGCCGTT    file1:1 file2:1 count:2
ATTCCAAC            file2:1 count:1

Question 2

Añade estos encantamientos místicos a tu programa

use DB_File;
my %seen; 
unlink '/tmp/translation.db';
sleep 2; 
tie ( %seen, 'DB_File', '/tmp/translation.db' )
    or die "Can't open /tmp/translation.db\n";

y su hash ya no residirá en la memoria sino en una base de datos en el disco. Puedes dejar el resto de tu código exactamente como está. Es cierto que utilicé el módulo DB_File pero realmente no hay razón para no hacerlo. Viene con cadaperlaInstalación lista para usar para que no tenga que instalarla ni nada.

Utilizo este enfoque todo el tiempo si mis hashes se vuelven realmente enormes y encuentro que, después de pasar un punto de amplitud vagamente definido, las cosas se aceleran bastante.

Answer

Añade estos encantamientos místicos a tu programa

use DB_File;
my %seen; 
unlink '/tmp/translation.db';
sleep 2; 
tie ( %seen, 'DB_File', '/tmp/translation.db' )
    or die "Can't open /tmp/translation.db\n";

y su hash ya no residirá en la memoria sino en una base de datos en el disco. Puedes dejar el resto de tu código exactamente como está. Es cierto que utilicé el módulo DB_File pero realmente no hay razón para no hacerlo. Viene con cadaperlaInstalación lista para usar para que no tenga que instalarla ni nada.

Utilizo este enfoque todo el tiempo si mis hashes se vuelven realmente enormes y encuentro que, después de pasar un punto de amplitud vagamente definido, las cosas se aceleran bastante.

fusionar varios archivos según la primera columna y ahorrar problemas de memoria

Respuesta1

Respuesta2

información relacionada