Wie erstelle ich in Linux eine neue Datei mit den erforderlichen Spalten aus mehreren unterschiedlichen Dateien?

Wie erstelle ich in Linux eine neue Datei mit den erforderlichen Spalten aus mehreren unterschiedlichen Dateien?

Ich habe ein Verzeichnis ballgown, in dem sich etwa 1000 Unterverzeichnisse als Beispielnamen befinden. Jedes Unterverzeichnis hat eine Datei t_data.ctab. Der Dateiname ist in allen Unterverzeichnissen derselbe.

ballgown
      |_______TCGA-A2-A0T3-01A
                   |___________ t_data.ctab
      |_______TCGA-A7-A4SA-01A
                   |___________ t_data.ctab
      |_______TCGA-A7-A6VW-01A
                   |___________ t_data.ctab

Wie oben ballgowngibt es 1000 Unterverzeichnisse. Die t_data.ctabDatei in all diesen 1000 Unterverzeichnissen sieht mit Spalten wie folgt aus:

t_id    chr     strand  start   end     t_name  num_exons       length  gene_id gene_name       cov     FPKM
1       1       -       10060   10614   MSTRG.1.1       1       555     MSTRG.1 .       0.000000        0.000000
2       1       +       11140   30023   MSTRG.10.1      12      3981    MSTRG.10        .       2.052715        0.284182
3       1       -       11694   29342   MSTRG.11.1      8       6356    MSTRG.11        .       0.557588        0.077194
4       1       +       11869   14409   ENST00000456328.2       3       1657    MSTRG.10        DDX11L1 0.000000        0.000000
5       1       +       11937   29347   MSTRG.10.3      12      3544    MSTRG.10        .       0.000000        0.000000
6       1       -       11959   30203   MSTRG.11.2      11      4547    MSTRG.11        .       0.369929        0.051214
7       1       +       12010   13670   ENST00000450305.2       6       632     MSTRG.10        DDX11L1 0.000000        0.000000
8       1       +       12108   26994   MSTRG.10.5      10      5569    MSTRG.10        .       0.057091        0.007904
9       1       +       12804   199997  MSTRG.10.6      12      3567    MSTRG.10        .       0.000000        0.000000
10      1       +       13010   31097   MSTRG.10.7      12      4375    MSTRG.10        .       0.000000        0.000000
11      1       -       13068   26832   MSTRG.11.3      9       5457    MSTRG.11        .       0.995280        0.137788

Aus allen t_data.ctabDateien möchte ich nur eine Spalte extrahieren t_nameund FPKMeine neue Datei erstellen. In der neuen Datei FPKMsollte die Spalte den Namen der Probe enthalten. Sie sollte wie folgt aussehen:

t_name         TCGA-A2-A0T3-01A TCGA-A7-A4SA-01A    TCGA-A7-A6VW-01A
MSTRG.1.1              0            0.028181                 0
MSTRG.10.1         0.284182         0.002072             0.046302
MSTRG.11.1         0.077194         0.685535             0.105849
ENST00000456328.2      0            0.307315             0.038961
MSTRG.10.3             0            0.446015             0.009946
MSTRG.11.2         0.051214         0.053577             0.036081
ENST00000450305.2      0            0.110438             0.040319
MSTRG.10.5         0.007904             0                1.430825
MSTRG.10.6             0                0                0.221105
MSTRG.10.7             0            0.199354                 0
MSTRG.11.3         0.137788         0.004792                 0

Wenn es zwei oder drei Dateien sind, kann ich cut-f6,12 auf jede Datei anwenden und sie dann zusammenfügen. Aber ich habe jetzt ungefähr 1000 Dateien.

Antwort1

Versuchen Sie es auf diese einfache Weise:

zuerst tun:

awk 'FNR==1 { print substr(FILENAME,1,16) >substr(FILENAME,1,16)".tmp" }
     FNR >1 { print $12 > substr(FILENAME,1,16)".tmp" }
     NR==FNR{ print $6  >"first_column.tmp" }' TCGA-A*/t_data.ctab

Fügen Sie sie dann pastemit Kommas als Trennzeichen zusammen (entfernen Sie diese, -d,wenn Sie stattdessen Tabulatoren möchten):

paste -d, *.tmp
t_name,TCGA-A2-A0T3-01A,TCGA-A7-A4SA-01A,TCGA-A7-A6VW-01A
MSTRG.1.1,0.000000,0.00000,0.0000
MSTRG.10.1,0.284182,0.28418,0.2841
MSTRG.11.1,0.077194,0.07719,0.0771
ENST00000456328.2,0.000000,0.00000,0.0000
MSTRG.10.3,0.000000,0.00000,0.0000
MSTRG.11.2,0.051214,0.05121,0.0512
ENST00000450305.2,0.000000,0.00000,0.0000
MSTRG.10.5,0.007904,0.00790,0.0079
MSTRG.10.6,0.000000,0.00000,0.0000
MSTRG.10.7,0.000000,0.00000,0.0000
MSTRG.11.3,0.137788,0.13778,0.1377

Antwort2

Wären Sie mit der CSV-Ausgabe zufrieden?

find ballgown -name t_data.ctab | awk ' {
  F=$0
  print F " started"
  split(F,P,"/")
  FN= P[2]
  TF[FN]=1
  getline < F
  while ((getline < F) > 0) {
    TN[$6]=1
    TV[FN ":" $6] = $NF
  }
  close(F)
  print f " done"
}
END {
  printf("tname")
  for (F in TF) {
    printf(", %s",F)
  }
  print ""
  for (N in TN) {
    printf("%s",N)
    for (F in TF) {
      printf(", %s",TV[F ":" N])
    }
    print ""
  }
}
'

Antwort3

Ich würde das Problem in zwei Operationen aufteilen, wie im Kommentar zur Frage beschrieben. Dies ist möglich, da die erste Spalte für jede Datei genau gleich ist und jede Datei die gleiche Anzahl von Zeilen hat.

Positionieren Sie sich im Ballkleid-Verzeichnis:

cd ballgown

Erstellen Sie als ersten Schritt eine Ausgabedatei, die die erste Spalte enthält:

cut -f6 TCGA-A7-A6VW-01A/t_data.ctab > out.tab

Der Großteil der Arbeit wird durch eine Kombination aus findund erledigt perl:

find -iname t_data.ctab -exec perl -i.bak -lane 'if($.==1){$ARGV=~/([-\w]+)\/.*$/;$f=$1} if(1..eof&&($n=$.)){$a[$.]=$F[11];$a[1]=$f;next}; print "$_\t$a[$.-$n]"' {} out.tab \;

Notiz:Dies ist eine destruktive Aktion; die Originaldateien bleiben mit einer hinzugefügten .bakErweiterung erhalten.


Nicht-destruktive Version, die Folgendes verwendet sponge(wurde auch finddurch eine Schleife ersetzt for):

for F in */t_data.ctab; do perl -lane 'if(1..eof&&($n=$.)){$a[$.]=$F[11];$a[1]=$ARGV=~s/([-\w]+)\/.*$/$1/r;next} print "$_\t$a[$.-$n]"' $F out.tab | sponge out.tab; done;

Antwort4

Vollständig programmatische Lösung, inPHP.

<?php
$filenames = glob('*/t_data.ctab');
foreach($filenames as $k=>$filename) {
    $name = pathinfo($filename)['dirname'] . "\n";
    $file = file($filename);
    foreach ($file as $n => $line) {
        $line = explode("\t", $line);
        if ($n === 0) {
            $line[11] = $name;
        }
        if ($k === 0) {
            $out[$n] = $line[5] . "\t" . $line[11];
        } else {
            $out[$n] = trim($out[$n]) . "\t" . $line[11];
        }
    }
}
file_put_contents('out.tab', $out);

Verwendung:

  • Positionieren Sie sich im ballgownVerzeichnis
  • Speichern Sie die Datei unter einem Namen, sagen wirscript.php
  • Führen Sie das Skript mit ausphp script.php
  • Die Ausgabe finden Sie in der out.tabDatei

Notiz:

Lassen Sie mich wissen, wenn Sie weitere Erklärungen zur Installation und Verwendung von PHP benötigen, was das Skript macht und wie Sie es für bestimmte Anforderungen optimieren können.


Hier ist die gleiche Lösung inPython, da die Sprache in den Kommentaren erwähnt wurde. Dies ist das erste Mal, dass ich Python schreibe, also kommen Sie bitte mit Verbesserungsvorschlägen.

import os, glob
out = []
for k, filename in enumerate(glob.glob('*/t_data.ctab')):
    with open(filename, 'r') as f:
        file = f.readlines()
        for n, line in enumerate(file):
            line = line.split("\t")
            if n == 0:
                line[11] = os.path.dirname(filename) + "\n"
            if k == 0:
                out.append(line[5] + "\t" + line[11])
            else:
                out[n] = out[n].strip() + "\t" + line[11]
outfile = open('out.tab', 'w')
outfile.write("".join(out))

Gleicher Ansatz, geschrieben alsPerlEinzeiler:

perl -lane '$a[$n].=($a[$n]?"":$F[5])."\t".($n<1?$ARGV=~s#([-\w]+)\/.*$#$1#r:$F[11]); $n=eof?0:$n+1}{print "$_" for @a' */t_data.ctab

verwandte Informationen