Wie erstelle ich in Linux eine neue Datei mit den erforderlichen Spalten aus mehreren unterschiedlichen Dateien?

Question 1

Versuchen Sie es auf diese einfache Weise:

zuerst tun:

awk 'FNR==1 { print substr(FILENAME,1,16) >substr(FILENAME,1,16)".tmp" }
     FNR >1 { print $12 > substr(FILENAME,1,16)".tmp" }
     NR==FNR{ print $6  >"first_column.tmp" }' TCGA-A*/t_data.ctab

Fügen Sie sie dann pastemit Kommas als Trennzeichen zusammen (entfernen Sie diese, -d,wenn Sie stattdessen Tabulatoren möchten):

paste -d, *.tmp
t_name,TCGA-A2-A0T3-01A,TCGA-A7-A4SA-01A,TCGA-A7-A6VW-01A
MSTRG.1.1,0.000000,0.00000,0.0000
MSTRG.10.1,0.284182,0.28418,0.2841
MSTRG.11.1,0.077194,0.07719,0.0771
ENST00000456328.2,0.000000,0.00000,0.0000
MSTRG.10.3,0.000000,0.00000,0.0000
MSTRG.11.2,0.051214,0.05121,0.0512
ENST00000450305.2,0.000000,0.00000,0.0000
MSTRG.10.5,0.007904,0.00790,0.0079
MSTRG.10.6,0.000000,0.00000,0.0000
MSTRG.10.7,0.000000,0.00000,0.0000
MSTRG.11.3,0.137788,0.13778,0.1377

Answer

Versuchen Sie es auf diese einfache Weise:

zuerst tun:

awk 'FNR==1 { print substr(FILENAME,1,16) >substr(FILENAME,1,16)".tmp" }
     FNR >1 { print $12 > substr(FILENAME,1,16)".tmp" }
     NR==FNR{ print $6  >"first_column.tmp" }' TCGA-A*/t_data.ctab

Fügen Sie sie dann pastemit Kommas als Trennzeichen zusammen (entfernen Sie diese, -d,wenn Sie stattdessen Tabulatoren möchten):

paste -d, *.tmp
t_name,TCGA-A2-A0T3-01A,TCGA-A7-A4SA-01A,TCGA-A7-A6VW-01A
MSTRG.1.1,0.000000,0.00000,0.0000
MSTRG.10.1,0.284182,0.28418,0.2841
MSTRG.11.1,0.077194,0.07719,0.0771
ENST00000456328.2,0.000000,0.00000,0.0000
MSTRG.10.3,0.000000,0.00000,0.0000
MSTRG.11.2,0.051214,0.05121,0.0512
ENST00000450305.2,0.000000,0.00000,0.0000
MSTRG.10.5,0.007904,0.00790,0.0079
MSTRG.10.6,0.000000,0.00000,0.0000
MSTRG.10.7,0.000000,0.00000,0.0000
MSTRG.11.3,0.137788,0.13778,0.1377

Question 2

Wären Sie mit der CSV-Ausgabe zufrieden?

find ballgown -name t_data.ctab | awk ' {
  F=$0
  print F " started"
  split(F,P,"/")
  FN= P[2]
  TF[FN]=1
  getline < F
  while ((getline < F) > 0) {
    TN[$6]=1
    TV[FN ":" $6] = $NF
  }
  close(F)
  print f " done"
}
END {
  printf("tname")
  for (F in TF) {
    printf(", %s",F)
  }
  print ""
  for (N in TN) {
    printf("%s",N)
    for (F in TF) {
      printf(", %s",TV[F ":" N])
    }
    print ""
  }
}
'

Answer

Wären Sie mit der CSV-Ausgabe zufrieden?

find ballgown -name t_data.ctab | awk ' {
  F=$0
  print F " started"
  split(F,P,"/")
  FN= P[2]
  TF[FN]=1
  getline < F
  while ((getline < F) > 0) {
    TN[$6]=1
    TV[FN ":" $6] = $NF
  }
  close(F)
  print f " done"
}
END {
  printf("tname")
  for (F in TF) {
    printf(", %s",F)
  }
  print ""
  for (N in TN) {
    printf("%s",N)
    for (F in TF) {
      printf(", %s",TV[F ":" N])
    }
    print ""
  }
}
'

Question 3

Ich würde das Problem in zwei Operationen aufteilen, wie im Kommentar zur Frage beschrieben. Dies ist möglich, da die erste Spalte für jede Datei genau gleich ist und jede Datei die gleiche Anzahl von Zeilen hat.

Positionieren Sie sich im Ballkleid-Verzeichnis:

cd ballgown

Erstellen Sie als ersten Schritt eine Ausgabedatei, die die erste Spalte enthält:

cut -f6 TCGA-A7-A6VW-01A/t_data.ctab > out.tab

Der Großteil der Arbeit wird durch eine Kombination aus findund erledigt perl:

find -iname t_data.ctab -exec perl -i.bak -lane 'if($.==1){$ARGV=~/([-\w]+)\/.*$/;$f=$1} if(1..eof&&($n=$.)){$a[$.]=$F[11];$a[1]=$f;next}; print "$_\t$a[$.-$n]"' {} out.tab \;

Notiz:Dies ist eine destruktive Aktion; die Originaldateien bleiben mit einer hinzugefügten .bakErweiterung erhalten.

Nicht-destruktive Version, die Folgendes verwendet sponge(wurde auch finddurch eine Schleife ersetzt for):

for F in */t_data.ctab; do perl -lane 'if(1..eof&&($n=$.)){$a[$.]=$F[11];$a[1]=$ARGV=~s/([-\w]+)\/.*$/$1/r;next} print "$_\t$a[$.-$n]"' $F out.tab | sponge out.tab; done;

Answer

Ich würde das Problem in zwei Operationen aufteilen, wie im Kommentar zur Frage beschrieben. Dies ist möglich, da die erste Spalte für jede Datei genau gleich ist und jede Datei die gleiche Anzahl von Zeilen hat.

Positionieren Sie sich im Ballkleid-Verzeichnis:

cd ballgown

Erstellen Sie als ersten Schritt eine Ausgabedatei, die die erste Spalte enthält:

cut -f6 TCGA-A7-A6VW-01A/t_data.ctab > out.tab

Der Großteil der Arbeit wird durch eine Kombination aus findund erledigt perl:

find -iname t_data.ctab -exec perl -i.bak -lane 'if($.==1){$ARGV=~/([-\w]+)\/.*$/;$f=$1} if(1..eof&&($n=$.)){$a[$.]=$F[11];$a[1]=$f;next}; print "$_\t$a[$.-$n]"' {} out.tab \;

Notiz:Dies ist eine destruktive Aktion; die Originaldateien bleiben mit einer hinzugefügten .bakErweiterung erhalten.

Nicht-destruktive Version, die Folgendes verwendet sponge(wurde auch finddurch eine Schleife ersetzt for):

for F in */t_data.ctab; do perl -lane 'if(1..eof&&($n=$.)){$a[$.]=$F[11];$a[1]=$ARGV=~s/([-\w]+)\/.*$/$1/r;next} print "$_\t$a[$.-$n]"' $F out.tab | sponge out.tab; done;

Question 4

Vollständig programmatische Lösung, inPHP.

<?php
$filenames = glob('*/t_data.ctab');
foreach($filenames as $k=>$filename) {
    $name = pathinfo($filename)['dirname'] . "\n";
    $file = file($filename);
    foreach ($file as $n => $line) {
        $line = explode("\t", $line);
        if ($n === 0) {
            $line[11] = $name;
        }
        if ($k === 0) {
            $out[$n] = $line[5] . "\t" . $line[11];
        } else {
            $out[$n] = trim($out[$n]) . "\t" . $line[11];
        }
    }
}
file_put_contents('out.tab', $out);

Verwendung:

Positionieren Sie sich im ballgownVerzeichnis
Speichern Sie die Datei unter einem Namen, sagen wirscript.php
Führen Sie das Skript mit ausphp script.php
Die Ausgabe finden Sie in der out.tabDatei

Notiz:

Lassen Sie mich wissen, wenn Sie weitere Erklärungen zur Installation und Verwendung von PHP benötigen, was das Skript macht und wie Sie es für bestimmte Anforderungen optimieren können.

Hier ist die gleiche Lösung inPython, da die Sprache in den Kommentaren erwähnt wurde. Dies ist das erste Mal, dass ich Python schreibe, also kommen Sie bitte mit Verbesserungsvorschlägen.

import os, glob
out = []
for k, filename in enumerate(glob.glob('*/t_data.ctab')):
    with open(filename, 'r') as f:
        file = f.readlines()
        for n, line in enumerate(file):
            line = line.split("\t")
            if n == 0:
                line[11] = os.path.dirname(filename) + "\n"
            if k == 0:
                out.append(line[5] + "\t" + line[11])
            else:
                out[n] = out[n].strip() + "\t" + line[11]
outfile = open('out.tab', 'w')
outfile.write("".join(out))

Gleicher Ansatz, geschrieben alsPerlEinzeiler:

perl -lane '$a[$n].=($a[$n]?"":$F[5])."\t".($n<1?$ARGV=~s#([-\w]+)\/.*$#$1#r:$F[11]); $n=eof?0:$n+1}{print "$_" for @a' */t_data.ctab

Answer

Vollständig programmatische Lösung, inPHP.

<?php
$filenames = glob('*/t_data.ctab');
foreach($filenames as $k=>$filename) {
    $name = pathinfo($filename)['dirname'] . "\n";
    $file = file($filename);
    foreach ($file as $n => $line) {
        $line = explode("\t", $line);
        if ($n === 0) {
            $line[11] = $name;
        }
        if ($k === 0) {
            $out[$n] = $line[5] . "\t" . $line[11];
        } else {
            $out[$n] = trim($out[$n]) . "\t" . $line[11];
        }
    }
}
file_put_contents('out.tab', $out);

Verwendung:

Positionieren Sie sich im ballgownVerzeichnis
Speichern Sie die Datei unter einem Namen, sagen wirscript.php
Führen Sie das Skript mit ausphp script.php
Die Ausgabe finden Sie in der out.tabDatei

Notiz:

Lassen Sie mich wissen, wenn Sie weitere Erklärungen zur Installation und Verwendung von PHP benötigen, was das Skript macht und wie Sie es für bestimmte Anforderungen optimieren können.

Hier ist die gleiche Lösung inPython, da die Sprache in den Kommentaren erwähnt wurde. Dies ist das erste Mal, dass ich Python schreibe, also kommen Sie bitte mit Verbesserungsvorschlägen.

import os, glob
out = []
for k, filename in enumerate(glob.glob('*/t_data.ctab')):
    with open(filename, 'r') as f:
        file = f.readlines()
        for n, line in enumerate(file):
            line = line.split("\t")
            if n == 0:
                line[11] = os.path.dirname(filename) + "\n"
            if k == 0:
                out.append(line[5] + "\t" + line[11])
            else:
                out[n] = out[n].strip() + "\t" + line[11]
outfile = open('out.tab', 'w')
outfile.write("".join(out))

Gleicher Ansatz, geschrieben alsPerlEinzeiler:

perl -lane '$a[$n].=($a[$n]?"":$F[5])."\t".($n<1?$ARGV=~s#([-\w]+)\/.*$#$1#r:$F[11]); $n=eof?0:$n+1}{print "$_" for @a' */t_data.ctab

Wie erstelle ich in Linux eine neue Datei mit den erforderlichen Spalten aus mehreren unterschiedlichen Dateien?

Antwort1

Antwort2

Antwort3

Antwort4

verwandte Informationen