Как извлечь текст из файла prc

Как извлечь текст из файла prc

Я хотел бы получить весь текст из prcфайла (без DRM) под Linux. Есть ли какой-нибудь инструмент для этого? Распаковка epubфайла — это просто prc, поэтому я надеюсь, что есть аналогичный трюк/инструмент prcи для файлов.

решение1

На самом деле вы смотрите на формат «исполняемого» файла PalmOS, который (по причинам, не поддающимся моему пониманию) был повторно использован в качестве формата электронной книги для «Mobipocket». Смотретьздесьдля справки и низкоуровневого описания формата файла.

Поскольку вы утверждаете, что исходный файлнетDRMed означает, что весь текст где-то там в готовом к конвертации формате. Так что все, что вам нужно, это библиотека для правильного чтения данных.

Моя любимая программа для Linux для конвертации между различными форматами электронных книг (или вообще из форматов электронных книг) — этоКалибр-- он поддерживает незашифрованные prcфайлы.

Если Calibre сам по себе не может извлечь текст в формат, который вы можете использовать, и может только преобразовать его в форматы, которые вы не можете использовать, то я бы рекомендовал вам проверить низкоуровневые библиотеки, которые calibre использует в качестве зависимостей для чтения prcфайлов. Затем вы можете использовать пример кода из этой библиотеки для разработки инструмента для чтения данных PRC на высоком уровне, определения, где находится текст, и записи его в файл. Это должно быть достаточно просто, если вы разработчик.

Это хороший вопрос. +1.

решение2

Связанный контент