
У меня есть расшифровка 3-часового документального фильма, который наполнен цитатами, которыми я хотел бы поделиться. Расшифровка огромная, так что просмотр ее вручную занял бы вечность.
По сути, я просто хочу удалить весь текст из стенограммы, за исключением текста, заключенного в кавычки: удалить «сохранить» удалить.
Я почти уверен, что это можно сделать в Notepad++, просто не знаю как. Может кто-нибудь помочь, пожалуйста!
решение1
Решение этой проблемы заключается в использованииРегулярное выражение, инструмент, который сопоставляет части текста с заданным набором правил. Ваши правила довольно просты — вылавливайте все, что находится между двумя кавычками. Я не самый большой специалист по Regex, но я придумал решение, которое, похоже, соответствует тому, что вы ищете.
Я рекомендую использоватьВозвышенныйредактор для этого - во-первых, я не смог заставить его работать с легкостью в N++, а во-вторых, Sublime действительно потрясающий!
Вот как извлечь цитаты.
- Откройте файл, который вы хотите извлечь, в Sublime.
- Нажмите
ctrl+f
, чтобы открыть инструмент поиска в нижней части экрана. - Нажмите кнопку слева от инструмента поиска с
.*
символами. Это включает сопоставление RegEx. - В строке поиска введите:
"[^"]+"
- В правом углу инструмента поиска нажмите
Find All
- Нажмите
ctrl+c
, чтобы скопировать все выделенные элементы. - Откройте новый файл и нажмите ,
ctrl+v
чтобы вставить весь выделенный текст.
Объяснение RegEx
Я разобью выражение на несколько частей.
"
- Это начинает сопоставление текста, начинающегося с двойной кавычки.
[^"]
- Это соответствует всему тексту, который не включает в себя еще одну двойную кавычку - важно, потому что если бы мы сопоставляли кавычки, мы бы начали сопоставлять все в файле после первой кавычки! Это не то, что мы хотим. Символ ^
- это символ отрицания в RegEx - он указывает нанетсопоставить то, что идет дальше.
+"
- Заставляет нас сопоставлять только текст, который в конечном итоге заканчивается еще одной двойной кавычкой. Это не позволяет нам сопоставлять, скажем, последнюю кавычку в документе с концом документа и завершает все сопоставления, которые мы начали ранее, не выходя за пределы того, что мы не хотим сопоставлять.
Я думаю, что есть более красивые способы сделать это, но я также ожидаю, что это охватывает то, что вам нужно. Если у вас возникнут какие-либо проблемы с этим, дайте мне знать!
О, и в качестве последнего замечания, одна из причин, по которой я рекомендовал Sublime, заключается в том, что он поддерживает несколько курсоров, что позволяет ему с легкостью выбирать разные части текста одновременно. Попробуйте открыть документ и ctrl+middle click
нажать ing в нескольких разных местах, а затем начните печатать.
Редактировать
Ха-ха, я совершенно забыл поискать в самом очевидном месте Notepad++ - инструмент поиска - встроенный RegEx. Вы можете сделать это примерно так же, но не было удобного способа выделить весь текст. Самым простым было нажать «Найти все в текущем документе», а затем выделить весь текст, сгенерированный в окне поиска внизу. Но это не так красиво, как то, как это делает Sublime.
решение2
Попробуй это :
- Ctrl+H
- Найти что: ^(\l+)
- Заменить на : (пусто)
- Заменить все