Я новичок в Notepad++ и пытаюсь использовать Regex для поиска определенных значений в поле и удаления его родительского тега (и всего содержимого, включая поле).
По сути, я пытаюсь удалить транзакции, которые имеют определенные идентификаторы Store. Файлы огромные, и мне нужно избавиться от тысяч записей, пример ниже!
Образец
<Transaction>
<TxnHeader>
<StoreId>6705</StoreId>
<TillNumber>1</TillNumber>
<TxnNumber>343243</TxnNumber>
<StartDate>2019-02-02T07:42:45</StartDate>
<TxnType>1</TxnType>
</TxnHeader>
<TxnItemLines>
<TxnItemLine>
<DetailSequence>1</DetailSequence>
<ItemNumber>6304</ItemNumber>
<DeptNumber>168</DeptNumber>
<Quantity>1.000000</Quantity>
<LineValue>4.470000</LineValue>
</TxnItemLine>
</TxnItemLines>
</Transaction>
<Transaction>
<TxnHeader>
<StoreId>8351</StoreId>
<TillNumber>1</TillNumber>
<TxnNumber>327527</TxnNumber>
<StartDate>2019-02-02T08:02:47</StartDate>
<TxnType>1</TxnType>
</TxnHeader>
<TxnItemLines>
<TxnItemLine>
<DetailSequence>1</DetailSequence>
<ItemNumber>6304</ItemNumber>
<DeptNumber>168</DeptNumber>
<Quantity>1.000000</Quantity>
<LineValue>7.310000</LineValue>
</TxnItemLine>
</TxnItemLines>
</Transaction>
<Transaction>
<TxnHeader>
<StoreId>7837</StoreId>
<TillNumber>1</TillNumber>
<TxnNumber>164728</TxnNumber>
<StartDate>2019-02-02T08:19:47</StartDate>
<TxnType>1</TxnType>
</TxnHeader>
<TxnItemLines>
<TxnItemLine>
<DetailSequence>1</DetailSequence>
<ItemNumber>1902</ItemNumber>
<DeptNumber>154</DeptNumber>
<Quantity>1.000000</Quantity>
<LineValue>10.000000</LineValue>
</TxnItemLine>
</TxnItemLines>
</Transaction>
Желанный
<Transaction>
<TxnHeader>
<StoreId>6705</StoreId>
<TillNumber>1</TillNumber>
<TxnNumber>343243</TxnNumber>
<StartDate>2019-02-02T07:42:45</StartDate>
<TxnType>1</TxnType>
</TxnHeader>
<TxnItemLines>
<TxnItemLine>
<DetailSequence>1</DetailSequence>
<ItemNumber>6304</ItemNumber>
<DeptNumber>168</DeptNumber>
<Quantity>1.000000</Quantity>
<LineValue>4.470000</LineValue>
</TxnItemLine>
</TxnItemLines>
</Transaction>
<Transaction>
<TxnHeader>
<StoreId>7837</StoreId>
<TillNumber>1</TillNumber>
<TxnNumber>164728</TxnNumber>
<StartDate>2019-02-02T08:19:47</StartDate>
<TxnType>1</TxnType>
</TxnHeader>
<TxnItemLines>
<TxnItemLine>
<DetailSequence>1</DetailSequence>
<ItemNumber>1902</ItemNumber>
<DeptNumber>154</DeptNumber>
<Quantity>1.000000</Quantity>
<LineValue>10.000000</LineValue>
</TxnItemLine>
</TxnItemLines>
</Transaction>
Требуемый текст выше полностью удалил тег транзакции, содержащий 8351
Я попробовал выполнить поиск и замену Regex (без ничего), используя запрос:
<Transaction>.*?<StoreID>8351</StoreID>.*?</Transaction>
и в итоге он обернул огромный кусок документа сверху донизу до конца первой транзакции, содержащей 8351
Любая помощь будет высоко оценена!
решение1
- Ctrl+H
- Найти то, что:
<Transaction>(?:(?!</Transaction>).)+<StoreId>8351</StoreId>(?:(?!<Transaction>).)+</Transaction>\R
- Заменить:
LEAVE EMPTY
- проверить Соответствие регистру
- проверить Обернуть вокруг
- проверить Регулярное выражение
- ПРОВЕРЯТЬ
. matches newline
- Replace all
Объяснение:
<Transaction> # opening tag
(?:(?!</Transaction>).)+ # tempered greedy token, make sure we haven't </Transaction> before the following
<StoreId>8351</StoreId> # literally
(?:(?!<Transaction>).)+ # tempered greedy token, make sure we haven't <Transaction> before the following
</Transaction> # literally, closing tag
\R? # optional any kind of linebreak
Скриншот:
Больше оЗакаленный Жадный Токен