extraer texto del archivo vtt

Question 1

Dado que su archivo parece consistir en una secuencia de registros separados por una o más líneas en blanco, sugeriría probar algo basado en elmodos de párrafode cualquiera awko perl.

Por ejemplo, si siempre necesitas eliminar las dos primeras líneas, como

1
00:00:00.096 --> 00:00:05.047

puede dividir en campos delimitados por nueva línea dentro de párrafos separados en blanco y omitir los dos primeros campos usando cualquiera de los dos

awk -vRS= -vORS= -F'\n' '{for(j=3;j<=NF;j++) print $j; print " "}' file.vtt

o

perl -F'\n' -00ne 'print join("", @F[2..$#F]), " "' file.vtt

Si no puede confiar en que haya una cantidad fija de campos (líneas) para eliminar, entonces es bastante fácil agregar una prueba de expresión regular, un poco más fácil ya que perlnos permite hacerlo grepdirectamente en matrices en lugar de escribir un bucle explícito. . Por ejemplo, para dividir en registros separados en espacios en blanco y luego imprimir solo aquellos campos (líneas) que tengan al menos una secuencia de al menos 3 caracteres alfabéticos, puede usar

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " "
' file.vtt

Si desea excluir la WEBVTTcadena, simplemente puede omitir el primer registro, es decir

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  ' file.vtt

Dependerá de usted elegir una expresión regular adecuada que capture las líneas deseadas y excluya las no deseadas. Puede agregar un ENDbloque en cualquiera de los dos casos awko perlsi desea agregar una nueva línea final a la salida concatenada.

NOTA: dado que (según la discusión en los comentarios) sus archivos parecen tener CRLFfinales de línea estilo DOS, deberá lidiar con ellos, ya sea modificando los separadores de campos y registros en los comandos anteriores en consecuencia, o eliminando los CRs. primero, por ejemplo

sed 's/\r$//' file.vtt | 
  perl -F'\n' -00ane '
    print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  '
you're the four functions if you would of management first of all you have the planning the planning stages basically you were choosing appropriate  organizational goals and courses action to best achieve those goals steeldriver@xenial-vm:~/test/$

Answer

Dado que su archivo parece consistir en una secuencia de registros separados por una o más líneas en blanco, sugeriría probar algo basado en elmodos de párrafode cualquiera awko perl.

Por ejemplo, si siempre necesitas eliminar las dos primeras líneas, como

1
00:00:00.096 --> 00:00:05.047

puede dividir en campos delimitados por nueva línea dentro de párrafos separados en blanco y omitir los dos primeros campos usando cualquiera de los dos

awk -vRS= -vORS= -F'\n' '{for(j=3;j<=NF;j++) print $j; print " "}' file.vtt

o

perl -F'\n' -00ne 'print join("", @F[2..$#F]), " "' file.vtt

Si no puede confiar en que haya una cantidad fija de campos (líneas) para eliminar, entonces es bastante fácil agregar una prueba de expresión regular, un poco más fácil ya que perlnos permite hacerlo grepdirectamente en matrices en lugar de escribir un bucle explícito. . Por ejemplo, para dividir en registros separados en espacios en blanco y luego imprimir solo aquellos campos (líneas) que tengan al menos una secuencia de al menos 3 caracteres alfabéticos, puede usar

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " "
' file.vtt

Si desea excluir la WEBVTTcadena, simplemente puede omitir el primer registro, es decir

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  ' file.vtt

Dependerá de usted elegir una expresión regular adecuada que capture las líneas deseadas y excluya las no deseadas. Puede agregar un ENDbloque en cualquiera de los dos casos awko perlsi desea agregar una nueva línea final a la salida concatenada.

NOTA: dado que (según la discusión en los comentarios) sus archivos parecen tener CRLFfinales de línea estilo DOS, deberá lidiar con ellos, ya sea modificando los separadores de campos y registros en los comandos anteriores en consecuencia, o eliminando los CRs. primero, por ejemplo

sed 's/\r$//' file.vtt | 
  perl -F'\n' -00ane '
    print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  '
you're the four functions if you would of management first of all you have the planning the planning stages basically you were choosing appropriate  organizational goals and courses action to best achieve those goals steeldriver@xenial-vm:~/test/$

Question 2

ok, esto es con lo que terminé

#!/bin/bash
fname=$1
sed 's/\r$//' "$fname"    |\
grep -v -- "-->"          |\
grep -v "^$"              |\
grep -E -v "^[0-9]+$"     |\
sed 's/WEBVTT//'          |\
tr '\n' ' '               |\
tr -s ' '                 |\
tr -d '\t'                |\
sed 's/\\/\\\\/g'         |\
sed 's/"/\\"/g'

arreglar nuevas líneas de windows
encuentra todas las líneas que no tienen -->
encontrar todas las líneas que no estén vacías (creo que esto es más rápido, tal vez no)
encontrar todas las líneas que no son solo un número
eliminar el encabezado WEBVTT
eliminar nuevas líneas
apretar múltiples espacios a 1
quitar pestañas
escapar de cualquier barra invertida (para json)
escapar de las comillas dobles (para json)

Gracias a @steeldriver por la corrección de las nuevas líneas de Windows.

No usaría esto en producción porque es un poco débil, por ejemplo, saltaría líneas de texto como "tú eres --> mi amigo" y probablemente algunos otros casos, pero debería ser lo suficientemente bueno para mis propósitos (publicar en solr para buscar)

Sin embargo, me doy cuenta de que es bastante ineficiente. Agradecería consejos al respecto.

Answer

ok, esto es con lo que terminé

#!/bin/bash
fname=$1
sed 's/\r$//' "$fname"    |\
grep -v -- "-->"          |\
grep -v "^$"              |\
grep -E -v "^[0-9]+$"     |\
sed 's/WEBVTT//'          |\
tr '\n' ' '               |\
tr -s ' '                 |\
tr -d '\t'                |\
sed 's/\\/\\\\/g'         |\
sed 's/"/\\"/g'

arreglar nuevas líneas de windows
encuentra todas las líneas que no tienen -->
encontrar todas las líneas que no estén vacías (creo que esto es más rápido, tal vez no)
encontrar todas las líneas que no son solo un número
eliminar el encabezado WEBVTT
eliminar nuevas líneas
apretar múltiples espacios a 1
quitar pestañas
escapar de cualquier barra invertida (para json)
escapar de las comillas dobles (para json)

Gracias a @steeldriver por la corrección de las nuevas líneas de Windows.

No usaría esto en producción porque es un poco débil, por ejemplo, saltaría líneas de texto como "tú eres --> mi amigo" y probablemente algunos otros casos, pero debería ser lo suficientemente bueno para mis propósitos (publicar en solr para buscar)

Sin embargo, me doy cuenta de que es bastante ineficiente. Agradecería consejos al respecto.

extraer texto del archivo vtt

Respuesta1

Respuesta2

información relacionada