Text aus VTT-Datei extrahieren

Question 1

Da Ihre Datei aus einer Folge von Datensätzen zu bestehen scheint, die durch eine oder mehrere Leerzeilen getrennt sind, würde ich vorschlagen, etwas zu versuchen, das auf demAbsatzmodivon entweder awkoder perl.

Wenn Sie beispielsweise immer die ersten beiden Zeilen entfernen müssen, wie

1
00:00:00.096 --> 00:00:05.047

Sie können die Absätze in durch Zeilenumbrüche getrennte Felder aufteilen und die ersten beiden Felder überspringen, indem Sie entweder

awk -vRS= -vORS= -F'\n' '{for(j=3;j<=NF;j++) print $j; print " "}' file.vtt

oder

perl -F'\n' -00ne 'print join("", @F[2..$#F]), " "' file.vtt

Wenn Sie sich nicht darauf verlassen können, dass eine feste Anzahl von Feldern (Zeilen) entfernt werden muss, ist es relativ einfach, einen regulären Ausdruckstest hinzuzufügen - etwas einfacher, perlda wir damit direkt auf Arrays zugreifen können, grepanstatt eine explizite Schleife zu schreiben. Um beispielsweise in durch Leerzeichen getrennte Datensätze aufzuteilen und dann nur die Felder (Zeilen) zu drucken, die mindestens eine Sequenz von mindestens 3 alphabetischen Zeichen enthalten, können Sie Folgendes verwenden:

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " "
' file.vtt

Wenn Sie die Zeichenfolge ausschließen möchten, WEBVTTkönnen Sie einfach den ersten Datensatz überspringen, d. h.

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  ' file.vtt

Es liegt an Ihnen, einen geeigneten regulären Ausdruck auszuwählen, der die gewünschten Zeilen erfasst und die unerwünschten ausschließt. Sie können ENDentweder einen Block hinzufügen awkoder perlwenn Sie der verketteten Ausgabe eine abschließende neue Zeile hinzufügen möchten.

HINWEIS: Da (basierend auf der Diskussion in den Kommentaren) Ihre Dateien anscheinend CRLFZeilenenden im DOS-Stil haben, müssen Sie sich damit befassen - entweder indem Sie die Feld- und Datensatztrennzeichen in den obigen Befehlen entsprechend ändern oder indem Sie das CRerste „s“ entfernen, z. B.

sed 's/\r$//' file.vtt | 
  perl -F'\n' -00ane '
    print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  '
you're the four functions if you would of management first of all you have the planning the planning stages basically you were choosing appropriate  organizational goals and courses action to best achieve those goals steeldriver@xenial-vm:~/test/$

Answer

Da Ihre Datei aus einer Folge von Datensätzen zu bestehen scheint, die durch eine oder mehrere Leerzeilen getrennt sind, würde ich vorschlagen, etwas zu versuchen, das auf demAbsatzmodivon entweder awkoder perl.

Wenn Sie beispielsweise immer die ersten beiden Zeilen entfernen müssen, wie

1
00:00:00.096 --> 00:00:05.047

Sie können die Absätze in durch Zeilenumbrüche getrennte Felder aufteilen und die ersten beiden Felder überspringen, indem Sie entweder

awk -vRS= -vORS= -F'\n' '{for(j=3;j<=NF;j++) print $j; print " "}' file.vtt

oder

perl -F'\n' -00ne 'print join("", @F[2..$#F]), " "' file.vtt

Wenn Sie sich nicht darauf verlassen können, dass eine feste Anzahl von Feldern (Zeilen) entfernt werden muss, ist es relativ einfach, einen regulären Ausdruckstest hinzuzufügen - etwas einfacher, perlda wir damit direkt auf Arrays zugreifen können, grepanstatt eine explizite Schleife zu schreiben. Um beispielsweise in durch Leerzeichen getrennte Datensätze aufzuteilen und dann nur die Felder (Zeilen) zu drucken, die mindestens eine Sequenz von mindestens 3 alphabetischen Zeichen enthalten, können Sie Folgendes verwenden:

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " "
' file.vtt

Wenn Sie die Zeichenfolge ausschließen möchten, WEBVTTkönnen Sie einfach den ersten Datensatz überspringen, d. h.

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  ' file.vtt

Es liegt an Ihnen, einen geeigneten regulären Ausdruck auszuwählen, der die gewünschten Zeilen erfasst und die unerwünschten ausschließt. Sie können ENDentweder einen Block hinzufügen awkoder perlwenn Sie der verketteten Ausgabe eine abschließende neue Zeile hinzufügen möchten.

HINWEIS: Da (basierend auf der Diskussion in den Kommentaren) Ihre Dateien anscheinend CRLFZeilenenden im DOS-Stil haben, müssen Sie sich damit befassen - entweder indem Sie die Feld- und Datensatztrennzeichen in den obigen Befehlen entsprechend ändern oder indem Sie das CRerste „s“ entfernen, z. B.

sed 's/\r$//' file.vtt | 
  perl -F'\n' -00ane '
    print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  '
you're the four functions if you would of management first of all you have the planning the planning stages basically you were choosing appropriate  organizational goals and courses action to best achieve those goals steeldriver@xenial-vm:~/test/$

Question 2

ok, hier ist das Ergebnis

#!/bin/bash
fname=$1
sed 's/\r$//' "$fname"    |\
grep -v -- "-->"          |\
grep -v "^$"              |\
grep -E -v "^[0-9]+$"     |\
sed 's/WEBVTT//'          |\
tr '\n' ' '               |\
tr -s ' '                 |\
tr -d '\t'                |\
sed 's/\\/\\\\/g'         |\
sed 's/"/\\"/g'

Windows-Zeilenumbrüche reparieren
finde alle Zeilen die nicht haben -->
alle Zeilen finden, die nicht leer sind (ich denke, das ist schneller, vielleicht aber auch nicht)
Finde alle Zeilen, die nicht nur aus Zahlen bestehen
WEBVTT-Header entfernen
Zeilenumbrüche entfernen
mehrere Leerzeichen auf 1 zusammendrücken
Registerkarten entfernen
Escapen Sie alle Backslashes (für JSON)
Escapen Sie alle Anführungszeichen (für JSON)

Danke an @steeldriver für den Fix für neue Zeilen in Windows.

Ich würde dies nicht in der Produktion verwenden, da es ein bisschen schwach ist, z. B. würde es Textzeilen wie „du bist --> mein Freund“ und wahrscheinlich einige andere Fälle überspringen, aber es sollte für meine Zwecke gut genug sein (Posten in Solr zum Suchen).

Mir ist allerdings klar, dass das ziemlich ineffizient ist. Für Tipps hierzu wäre ich dankbar.

Answer

ok, hier ist das Ergebnis

#!/bin/bash
fname=$1
sed 's/\r$//' "$fname"    |\
grep -v -- "-->"          |\
grep -v "^$"              |\
grep -E -v "^[0-9]+$"     |\
sed 's/WEBVTT//'          |\
tr '\n' ' '               |\
tr -s ' '                 |\
tr -d '\t'                |\
sed 's/\\/\\\\/g'         |\
sed 's/"/\\"/g'

Windows-Zeilenumbrüche reparieren
finde alle Zeilen die nicht haben -->
alle Zeilen finden, die nicht leer sind (ich denke, das ist schneller, vielleicht aber auch nicht)
Finde alle Zeilen, die nicht nur aus Zahlen bestehen
WEBVTT-Header entfernen
Zeilenumbrüche entfernen
mehrere Leerzeichen auf 1 zusammendrücken
Registerkarten entfernen
Escapen Sie alle Backslashes (für JSON)
Escapen Sie alle Anführungszeichen (für JSON)

Danke an @steeldriver für den Fix für neue Zeilen in Windows.

Ich würde dies nicht in der Produktion verwenden, da es ein bisschen schwach ist, z. B. würde es Textzeilen wie „du bist --> mein Freund“ und wahrscheinlich einige andere Fälle überspringen, aber es sollte für meine Zwecke gut genug sein (Posten in Solr zum Suchen).

Mir ist allerdings klar, dass das ziemlich ineffizient ist. Für Tipps hierzu wäre ich dankbar.

Text aus VTT-Datei extrahieren

Antwort1

Antwort2

verwandte Informationen