Разделить PDF на отдельные файлы по ключевым словам

2024-12-24 • tag-icon

Разделить PDF на отдельные файлы по ключевым словам

Я работаю в организации с отделом закупок, который обрабатывает много заказов на закупку. Когда они «печатают» задание на закупку в формате PDF, полученный файл PDF может содержать страницы для одного или нескольких заказов на закупку.

Например, в pdf-файле может быть всего 6 страниц, но страницы 1-2 относятся к одному заказу на закупку, страницы 3-4 — к одному заказу на закупку, а страницы 5-10 — к третьему заказу на закупку. В каждом заказе на закупку есть слова «Заказ на закупку» на первой странице другого заказа на закупку.

Теперь они хотят разделить ранее созданные pdf-файлы, чтобы каждый pdf-файл был для отдельного PO. Есть ли способ использовать pdftk или аналогичный инструмент для разделения pdf-файлов на основе ключевых слов «Заказ на закупку»? Каждый pdf-файл после разделения должен содержать только страницы для каждого PO. Количество страниц в PO-файле варьируется от PO к PO, поэтому я не могу использовать стандартное значение, например, «разбить каждые 2 страницы», поэтому слова «Заказ на закупку» должны использоваться в качестве разделителя, чтобы знать, где разделить исходный pdf-файл.

Если у кого-то есть какие-либо советы или пример скрипта (bash), которые помогут с этим, я буду очень признателен.

Спасибо, Крис.

Связанный контент