Extraindo citações de uma transcrição de filme/tv no Notepad++

Extraindo citações de uma transcrição de filme/tv no Notepad++

Tenho uma transcrição de um documentário de 3 horas repleto de citações que gostaria de compartilhar. A transcrição é enorme, então analisá-la manualmente levaria uma eternidade.

Então, basicamente, eu só quero remover todo o texto da transcrição, exceto o texto encontrado entre aspas: remove "keep" remove.

Tenho certeza que você pode fazer isso no Notepad++, só não sei como. Alguém pode ajudar por favor!

Responder1

Esta solução para este problema reside na utilizaçãoRegEx, uma ferramenta que combina partes do texto com base em um conjunto de regras. Suas regras são bastante simples – pegue tudo entre duas aspas. Não sou o melhor em Regex, mas encontrei uma solução que parece corresponder ao que você procura.

Eu recomendo usar oSublimeeditor para fazer isso - em primeiro lugar, não consegui fazê-lo funcionar com facilidade em N++ e, em segundo lugar, o Sublime é realmente incrível!

Veja como extrair suas cotações.

  1. Abra o arquivo que deseja extrair no Sublime.
  2. Clique ctrl+fpara abrir a ferramenta de localização na parte inferior da tela.
  3. Aperte o botão na extremidade esquerda da ferramenta de localização com os .*símbolos. Isso permite a correspondência RegEx.
  4. Na barra de localização, digite: "[^"]+"
  5. Na extremidade direita da ferramenta de localização, clique emFind All
  6. Clique ctrl+cpara copiar todas as seleções.
  7. Abra um novo arquivo e clique ctrl+vpara colar todo o texto selecionado.

Explicação RegEx

Vou dividir a expressão em várias partes.

"- Isso inicia a correspondência do texto começando com aspas duplas.
[^"]- Isso corresponde a todo o texto que não inclui outras aspas duplas - importante, porque se correspondermos às aspas, começaremos a corresponder tudo no arquivo após a primeira citação! Não é o que queremos. O ^símbolo é o caractere de negação no RegEx - indicanãocorresponder ao que vem a seguir.
+"- Obriga-nos a corresponder apenas o texto que eventualmente termina em outras aspas duplas. Isso nos impede de combinar, digamos, a citação final do documento com o final do documento e encerra todas as correspondências que iniciamos anteriormente sem transbordar para o que não queremos corresponder.

Imagino que existam maneiras mais bonitas de fazer isso, mas também espero que isso cubra o que você precisa. Se você tiver algum problema com isso, me avise!

Ah, e como nota final, parte do motivo pelo qual recomendei o Sublime é porque ele suporta vários cursores, o que permite selecionar diferentes partes do texto simultaneamente com facilidade. Tente abrir um documento e ctrl+middle clickdigitá-lo em alguns locais diferentes e depois começar a digitar.

Editar

Haha, esqueci completamente de procurar no local mais óbvio do Notepad ++ - a ferramenta de localização - o RegEx integrado. Você pode fazer isso praticamente da mesma maneira, mas não havia uma maneira legal de selecionar todo o texto. O mais simples foi clicar em “Localizar tudo no documento atual” e selecionar todo o texto gerado na janela Localizar na parte inferior. Mas isso não é tão bonito quanto a forma como o Sublime consegue.

Responder2

Tente isto:

  1. Ctrl+H
  2. Encontre o que: ^(\l+)
  3. Substitua por: (vazio)
  4. Substitua tudo

insira a descrição da imagem aqui

informação relacionada