PDFからコピーするときの行の形式

PDFからコピーするときの行の形式

PDF ファイルから Word にテキストをコピーしようとしていますが、Word ファイルにテキストを貼り付けると、PDF ファイルの行が「短く」なるため、Word の行全体が占有されず、通常のように見えるように手動で文を結合する必要があります (バックスペースを使用)。

PDF コピー ペーストを試してみましたが、一応は機能するものの、改行がすべて削除され、段落が保持されませんでした。しかし、コピーしようとしているファイルはかなり大きいので、実際の段落を保持する必要があります。Word をできるだけ行に合わせ、実際の段落も尊重する方法はありますか?

答え1

PDF 内のテキストは絶対位置のテキスト フラグメントで構成されており、一般的には行区切りや段落区切りは明確に示されていません。そのため、それらを正しく判別するタスクは OCR になりますが、これは複雑なタスクであり、満足のいく結果を得るには複雑なソフトウェアが必要になる可能性が高くなります。

たとえば、MS Word 自体には PDF 文書をインポートする機能がありますが、これもまた、必ずしも区切りを完全に認識するわけではありません (たとえば、スキャンして OCR した文書の場合のように、テキストの断片が少し「傾いている」場合など)。

関連情報