Извлечение цитат из транскрипта фильма/телепередачи в Notepad++

Question 1

Решение этой проблемы заключается в использованииРегулярное выражение, инструмент, который сопоставляет части текста с заданным набором правил. Ваши правила довольно просты — вылавливайте все, что находится между двумя кавычками. Я не самый большой специалист по Regex, но я придумал решение, которое, похоже, соответствует тому, что вы ищете.

Я рекомендую использоватьВозвышенныйредактор для этого - во-первых, я не смог заставить его работать с легкостью в N++, а во-вторых, Sublime действительно потрясающий!

Вот как извлечь цитаты.

Откройте файл, который вы хотите извлечь, в Sublime.
Нажмите ctrl+f, чтобы открыть инструмент поиска в нижней части экрана.
Нажмите кнопку слева от инструмента поиска с .*символами. Это включает сопоставление RegEx.
В строке поиска введите: "[^"]+"
В правом углу инструмента поиска нажмитеFind All
Нажмите ctrl+c, чтобы скопировать все выделенные элементы.
Откройте новый файл и нажмите , ctrl+vчтобы вставить весь выделенный текст.

Объяснение RegEx

Я разобью выражение на несколько частей.

"- Это начинает сопоставление текста, начинающегося с двойной кавычки.
[^"]- Это соответствует всему тексту, который не включает в себя еще одну двойную кавычку - важно, потому что если бы мы сопоставляли кавычки, мы бы начали сопоставлять все в файле после первой кавычки! Это не то, что мы хотим. Символ ^- это символ отрицания в RegEx - он указывает нанетсопоставить то, что идет дальше.
+"- Заставляет нас сопоставлять только текст, который в конечном итоге заканчивается еще одной двойной кавычкой. Это не позволяет нам сопоставлять, скажем, последнюю кавычку в документе с концом документа и завершает все сопоставления, которые мы начали ранее, не выходя за пределы того, что мы не хотим сопоставлять.

Я думаю, что есть более красивые способы сделать это, но я также ожидаю, что это охватывает то, что вам нужно. Если у вас возникнут какие-либо проблемы с этим, дайте мне знать!

О, и в качестве последнего замечания, одна из причин, по которой я рекомендовал Sublime, заключается в том, что он поддерживает несколько курсоров, что позволяет ему с легкостью выбирать разные части текста одновременно. Попробуйте открыть документ и ctrl+middle clickнажать ing в нескольких разных местах, а затем начните печатать.

Редактировать

Ха-ха, я совершенно забыл поискать в самом очевидном месте Notepad++ - инструмент поиска - встроенный RegEx. Вы можете сделать это примерно так же, но не было удобного способа выделить весь текст. Самым простым было нажать «Найти все в текущем документе», а затем выделить весь текст, сгенерированный в окне поиска внизу. Но это не так красиво, как то, как это делает Sublime.

Answer

Решение этой проблемы заключается в использованииРегулярное выражение, инструмент, который сопоставляет части текста с заданным набором правил. Ваши правила довольно просты — вылавливайте все, что находится между двумя кавычками. Я не самый большой специалист по Regex, но я придумал решение, которое, похоже, соответствует тому, что вы ищете.

Я рекомендую использоватьВозвышенныйредактор для этого - во-первых, я не смог заставить его работать с легкостью в N++, а во-вторых, Sublime действительно потрясающий!

Вот как извлечь цитаты.

Откройте файл, который вы хотите извлечь, в Sublime.
Нажмите ctrl+f, чтобы открыть инструмент поиска в нижней части экрана.
Нажмите кнопку слева от инструмента поиска с .*символами. Это включает сопоставление RegEx.
В строке поиска введите: "[^"]+"
В правом углу инструмента поиска нажмитеFind All
Нажмите ctrl+c, чтобы скопировать все выделенные элементы.
Откройте новый файл и нажмите , ctrl+vчтобы вставить весь выделенный текст.

Объяснение RegEx

Я разобью выражение на несколько частей.

"- Это начинает сопоставление текста, начинающегося с двойной кавычки.
[^"]- Это соответствует всему тексту, который не включает в себя еще одну двойную кавычку - важно, потому что если бы мы сопоставляли кавычки, мы бы начали сопоставлять все в файле после первой кавычки! Это не то, что мы хотим. Символ ^- это символ отрицания в RegEx - он указывает нанетсопоставить то, что идет дальше.
+"- Заставляет нас сопоставлять только текст, который в конечном итоге заканчивается еще одной двойной кавычкой. Это не позволяет нам сопоставлять, скажем, последнюю кавычку в документе с концом документа и завершает все сопоставления, которые мы начали ранее, не выходя за пределы того, что мы не хотим сопоставлять.

Я думаю, что есть более красивые способы сделать это, но я также ожидаю, что это охватывает то, что вам нужно. Если у вас возникнут какие-либо проблемы с этим, дайте мне знать!

О, и в качестве последнего замечания, одна из причин, по которой я рекомендовал Sublime, заключается в том, что он поддерживает несколько курсоров, что позволяет ему с легкостью выбирать разные части текста одновременно. Попробуйте открыть документ и ctrl+middle clickнажать ing в нескольких разных местах, а затем начните печатать.

Редактировать

Ха-ха, я совершенно забыл поискать в самом очевидном месте Notepad++ - инструмент поиска - встроенный RegEx. Вы можете сделать это примерно так же, но не было удобного способа выделить весь текст. Самым простым было нажать «Найти все в текущем документе», а затем выделить весь текст, сгенерированный в окне поиска внизу. Но это не так красиво, как то, как это делает Sublime.

Question 2

Попробуй это :

Ctrl+H
Найти что: ^(\l+)
Заменить на : (пусто)
Заменить все

введите описание изображения здесь

Answer

Попробуй это :

Ctrl+H
Найти что: ^(\l+)
Заменить на : (пусто)
Заменить все

введите описание изображения здесь

Извлечение цитат из транскрипта фильма/телепередачи в Notepad++

решение1

решение2

Связанный контент