pegue o texto do arquivo vtt

Question 1

Como seu arquivo parece consistir em uma sequência de registros separados por uma ou mais linhas em branco, sugiro tentar algo baseado nomodos de parágrafode um awkou de outro perl.

Por exemplo, se você sempre precisar retirar as duas primeiras linhas, como

1
00:00:00.096 --> 00:00:05.047

você pode dividir em campos delimitados por nova linha dentro de parágrafos separados em branco e pular os dois primeiros campos usando

awk -vRS= -vORS= -F'\n' '{for(j=3;j<=NF;j++) print $j; print " "}' file.vtt

ou

perl -F'\n' -00ne 'print join("", @F[2..$#F]), " "' file.vtt

Se você não pode confiar na existência de um número fixo de campos (linhas) a serem removidos, então é bastante fácil adicionar um teste de expressão regular - um pouco mais fácil, perlpois nos permite fazer isso grepdiretamente em arrays em vez de escrever um loop explícito . Por exemplo, para dividir em registros separados em branco e depois imprimir apenas os campos (linhas) com pelo menos uma sequência de pelo menos 3 caracteres alfabéticos, você poderia usar

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " "
' file.vtt

Se você quiser excluir a WEBVTTstring você pode simplesmente pular o primeiro registro, ou seja

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  ' file.vtt

Caberá a você escolher um regex adequado que capture as linhas desejadas e exclua as indesejadas. Você pode adicionar um ENDbloco awkou perlse desejar adicionar uma nova linha final à saída concatenada.

NOTA: como (com base na discussão nos comentários) seus arquivos parecem ter CRLFfinais de linha no estilo DOS, você precisará lidar com eles - modificando os separadores de campo e registro nos comandos acima de acordo ou removendo os CRs primeiro, por exemplo

sed 's/\r$//' file.vtt | 
  perl -F'\n' -00ane '
    print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  '
you're the four functions if you would of management first of all you have the planning the planning stages basically you were choosing appropriate  organizational goals and courses action to best achieve those goals steeldriver@xenial-vm:~/test/$

Answer

Como seu arquivo parece consistir em uma sequência de registros separados por uma ou mais linhas em branco, sugiro tentar algo baseado nomodos de parágrafode um awkou de outro perl.

Por exemplo, se você sempre precisar retirar as duas primeiras linhas, como

1
00:00:00.096 --> 00:00:05.047

você pode dividir em campos delimitados por nova linha dentro de parágrafos separados em branco e pular os dois primeiros campos usando

awk -vRS= -vORS= -F'\n' '{for(j=3;j<=NF;j++) print $j; print " "}' file.vtt

ou

perl -F'\n' -00ne 'print join("", @F[2..$#F]), " "' file.vtt

Se você não pode confiar na existência de um número fixo de campos (linhas) a serem removidos, então é bastante fácil adicionar um teste de expressão regular - um pouco mais fácil, perlpois nos permite fazer isso grepdiretamente em arrays em vez de escrever um loop explícito . Por exemplo, para dividir em registros separados em branco e depois imprimir apenas os campos (linhas) com pelo menos uma sequência de pelo menos 3 caracteres alfabéticos, você poderia usar

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " "
' file.vtt

Se você quiser excluir a WEBVTTstring você pode simplesmente pular o primeiro registro, ou seja

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  ' file.vtt

Caberá a você escolher um regex adequado que capture as linhas desejadas e exclua as indesejadas. Você pode adicionar um ENDbloco awkou perlse desejar adicionar uma nova linha final à saída concatenada.

NOTA: como (com base na discussão nos comentários) seus arquivos parecem ter CRLFfinais de linha no estilo DOS, você precisará lidar com eles - modificando os separadores de campo e registro nos comandos acima de acordo ou removendo os CRs primeiro, por exemplo

sed 's/\r$//' file.vtt | 
  perl -F'\n' -00ane '
    print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  '
you're the four functions if you would of management first of all you have the planning the planning stages basically you were choosing appropriate  organizational goals and courses action to best achieve those goals steeldriver@xenial-vm:~/test/$

Question 2

ok, aqui está o que acabei fazendo

#!/bin/bash
fname=$1
sed 's/\r$//' "$fname"    |\
grep -v -- "-->"          |\
grep -v "^$"              |\
grep -E -v "^[0-9]+$"     |\
sed 's/WEBVTT//'          |\
tr '\n' ' '               |\
tr -s ' '                 |\
tr -d '\t'                |\
sed 's/\\/\\\\/g'         |\
sed 's/"/\\"/g'

corrigir novas linhas do Windows
encontre todas as linhas que não possuem ->
encontre todas as linhas que não estão vazias (acho que isso é mais rápido, talvez não)
encontre todas as linhas que não são apenas um número
remover cabeçalho WEBVTT
remover novas linhas
esprema vários espaços para 1
remover guias
escapar de quaisquer barras invertidas (para json)
escape de quaisquer aspas duplas (para json)

Obrigado ao @steeldriver pela correção das novas linhas do Windows.

Eu não usaria isso em produção porque é um pouco fraco, por exemplo, pularia linhas de texto como "você é --> meu amigo" e provavelmente alguns outros casos, mas deve ser bom o suficiente para meus propósitos (postando no solr para pesquisar)

Eu percebo que é bastante ineficiente. Eu apreciaria dicas sobre isso.

Answer

ok, aqui está o que acabei fazendo

#!/bin/bash
fname=$1
sed 's/\r$//' "$fname"    |\
grep -v -- "-->"          |\
grep -v "^$"              |\
grep -E -v "^[0-9]+$"     |\
sed 's/WEBVTT//'          |\
tr '\n' ' '               |\
tr -s ' '                 |\
tr -d '\t'                |\
sed 's/\\/\\\\/g'         |\
sed 's/"/\\"/g'

corrigir novas linhas do Windows
encontre todas as linhas que não possuem ->
encontre todas as linhas que não estão vazias (acho que isso é mais rápido, talvez não)
encontre todas as linhas que não são apenas um número
remover cabeçalho WEBVTT
remover novas linhas
esprema vários espaços para 1
remover guias
escapar de quaisquer barras invertidas (para json)
escape de quaisquer aspas duplas (para json)

Obrigado ao @steeldriver pela correção das novas linhas do Windows.

Eu não usaria isso em produção porque é um pouco fraco, por exemplo, pularia linhas de texto como "você é --> meu amigo" e provavelmente alguns outros casos, mas deve ser bom o suficiente para meus propósitos (postando no solr para pesquisar)

Eu percebo que é bastante ineficiente. Eu apreciaria dicas sobre isso.

pegue o texto do arquivo vtt

Responder1

Responder2

informação relacionada