Notepad++ で映画やテレビのトランスクリプトから引用を抽出する

Notepad++ で映画やテレビのトランスクリプトから引用を抽出する

3 時間のドキュメンタリーの書き起こしがあり、共有したい引用が満載です。書き起こしは膨大なので、手動で確認すると永遠に時間がかかります。

つまり、基本的には、引用符で囲まれたテキストを除くすべてのテキストをトランスクリプトから削除するだけです。remove "keep" remove。

Notepad++ でこれを行うことができると確信していますが、方法がわかりません。誰か助けてください!

答え1

この問題の解決策は、正規表現は、一連のルールに基づいてテキストの一部を照合するツールです。ルールは非常に単純で、2 つの引用符の間にあるすべてのものをキャッチします。私は正規表現に詳しいわけではありませんが、あなたが探しているものに合致すると思われる解決策を思いつきました。

私は荘厳なエディターでこれを行うには、まず、N++ では簡単に動作させることができませんでした。次に、Sublime は本当に素晴らしいです。

引用を抽出する方法は次のとおりです。

  1. Sublime で抽出したいファイルを開きます。
  2. クリックするctrl+fと、画面の下部に検索ツールが開きます。
  3. シンボルの付いた検索ツールの左端にあるボタンを押します.*。これにより、正規表現による一致が有効になります。
  4. 検索バーに次のように入力します。 "[^"]+"
  5. 検索ツールの右端にあるFind All
  6. クリックすると、すべての選択項目がコピーされますctrl+c
  7. 新しいファイルを開き、 をクリックしてctrl+v選択したテキストをすべて貼り付けます。

正規表現の説明

式を複数の部分に分割します。

"- これは二重引用符で始まるテキストのマッチングを開始します。
[^"]- これは別の二重引用符を含まないすべてのテキストに一致します。これは重要です。引用符をマッチングすると、ファイル内の最初の引用符の後のすべてに一致し始めるためです。これは望んでいたことではありません。^記号は正規表現の否定文字です。ない次に来るものと一致
+"- 最終的に別の二重引用符で終わるテキストのみを一致させるように強制します。これにより、たとえば、ドキュメントの最後の引用符がドキュメントの末尾と一致するのを防ぎ、一致させたくないものにオーバーフローすることなく、以前に開始したすべての一致を終了します。

他にももっときれいな方法があると思いますが、これで必要なことはカバーできると思います。何か問題があれば、お知らせください。

最後に、私が Sublime を推奨した理由の 1 つは、複数のカーソルをサポートしているため、テキストのさまざまな部分を同時に簡単に選択できることです。ドキュメントを開いて、ctrl+middle clickいくつかの異なる場所で ing を実行してから、入力を開始してみてください。

編集

ハハ、Notepad++ の最もわかりやすい場所、つまり組み込みの RegEx の検索ツールを探すのを完全に忘れていました。ほぼ同じ方法で実行できますが、すべてのテキストを選択するための優れた方法はありませんでした。最も簡単な方法は、「現在のドキュメントですべて検索」をクリックし、下部の検索ウィンドウで生成されたすべてのテキストを選択することです。ただし、これは Sublime での管理方法ほどきれいではありません。

答え2

これを試して :

  1. Ctrl + H
  2. 何を検索するか: ^(\l+)
  3. 置換: (空)
  4. すべて置換

ここに画像の説明を入力してください

関連情報