Извлечение цитат из транскрипта фильма/телепередачи в Notepad++

Извлечение цитат из транскрипта фильма/телепередачи в Notepad++

У меня есть расшифровка 3-часового документального фильма, который наполнен цитатами, которыми я хотел бы поделиться. Расшифровка огромная, так что просмотр ее вручную занял бы вечность.

По сути, я просто хочу удалить весь текст из стенограммы, за исключением текста, заключенного в кавычки: удалить «сохранить» удалить.

Я почти уверен, что это можно сделать в Notepad++, просто не знаю как. Может кто-нибудь помочь, пожалуйста!

решение1

Решение этой проблемы заключается в использованииРегулярное выражение, инструмент, который сопоставляет части текста с заданным набором правил. Ваши правила довольно просты — вылавливайте все, что находится между двумя кавычками. Я не самый большой специалист по Regex, но я придумал решение, которое, похоже, соответствует тому, что вы ищете.

Я рекомендую использоватьВозвышенныйредактор для этого - во-первых, я не смог заставить его работать с легкостью в N++, а во-вторых, Sublime действительно потрясающий!

Вот как извлечь цитаты.

  1. Откройте файл, который вы хотите извлечь, в Sublime.
  2. Нажмите ctrl+f, чтобы открыть инструмент поиска в нижней части экрана.
  3. Нажмите кнопку слева от инструмента поиска с .*символами. Это включает сопоставление RegEx.
  4. В строке поиска введите: "[^"]+"
  5. В правом углу инструмента поиска нажмитеFind All
  6. Нажмите ctrl+c, чтобы скопировать все выделенные элементы.
  7. Откройте новый файл и нажмите , ctrl+vчтобы вставить весь выделенный текст.

Объяснение RegEx

Я разобью выражение на несколько частей.

"- Это начинает сопоставление текста, начинающегося с двойной кавычки.
[^"]- Это соответствует всему тексту, который не включает в себя еще одну двойную кавычку - важно, потому что если бы мы сопоставляли кавычки, мы бы начали сопоставлять все в файле после первой кавычки! Это не то, что мы хотим. Символ ^- это символ отрицания в RegEx - он указывает нанетсопоставить то, что идет дальше.
+"- Заставляет нас сопоставлять только текст, который в конечном итоге заканчивается еще одной двойной кавычкой. Это не позволяет нам сопоставлять, скажем, последнюю кавычку в документе с концом документа и завершает все сопоставления, которые мы начали ранее, не выходя за пределы того, что мы не хотим сопоставлять.

Я думаю, что есть более красивые способы сделать это, но я также ожидаю, что это охватывает то, что вам нужно. Если у вас возникнут какие-либо проблемы с этим, дайте мне знать!

О, и в качестве последнего замечания, одна из причин, по которой я рекомендовал Sublime, заключается в том, что он поддерживает несколько курсоров, что позволяет ему с легкостью выбирать разные части текста одновременно. Попробуйте открыть документ и ctrl+middle clickнажать ing в нескольких разных местах, а затем начните печатать.

Редактировать

Ха-ха, я совершенно забыл поискать в самом очевидном месте Notepad++ - инструмент поиска - встроенный RegEx. Вы можете сделать это примерно так же, но не было удобного способа выделить весь текст. Самым простым было нажать «Найти все в текущем документе», а затем выделить весь текст, сгенерированный в окне поиска внизу. Но это не так красиво, как то, как это делает Sublime.

решение2

Попробуй это :

  1. Ctrl+H
  2. Найти что: ^(\l+)
  3. Заменить на : (пусто)
  4. Заменить все

введите описание изображения здесь

Связанный контент