Gibt es einen Linux-Filter, der HTML in einfachen und schön formatierten Text umwandelt?

Gibt es einen Linux-Filter, der HTML in einfachen und schön formatierten Text umwandelt?

Ich möchte HTML-Antworten filtern, die aus der cURL-Ausgabe kommen. Welchen Filter soll ich anwenden? Das Anzeigen von HTML-Inhalten mit Midnight Commander ist kein Problem, es zeigt sie als schön formatierten Klartext an, also nehme ich an, dass es einen solchen Filter gibt.

Antwort1

Wir nennen diese Filter „Webbrowser“ – ein Programm, das HTML-Code analysiert und hübsche Dokumente ausgibt.

Linksist einer der Konsolen-Webbrowser, der unter Linux läuft.

Elinksist ein anderes.

Außerdem gibt esW3M.

Sie können Ihren HTML-Code jederzeit in eine Textdatei kopieren und mit einem GUI-Browser wie Firefox, Chrome, Opera usw. öffnen.

Bitte nichtVerwenden Sie reguläre Ausdrücke zum Parsen von HTML.

BEARBEITEN. Mir ist gerade aufgefallen, dass Sie Ihr HTML vielleicht verschönern und mit Tags versehen möchten. In diesem Fall können Sie verwendenHTML-Tidy-Bibliotheksprojektoder

Kopieren Sie Ihr HTML in eine Textdatei und umgeben Sie es mit <pre> </pre>Tags. Öffnen Sie es dann mit Ihrem Browser.

Antwort2

fürLuchslautet die Syntax:

curl ... | lynx --stdin

(sehenWie leitet man HTML in Lynx weiter?)

Antwort3

Midnight Commander verwendet „Links“ oder „Lynx“. Ich vermute, Sie haben eines davon installiert, wenn Sie analysiertes HTML in der McView sehen.

Antwort4

Wenn Sie lediglich die HTML-Ausgabe von curl auf ansprechende Weise anzeigen möchten, reichen die oben vorgeschlagenen Versionen w3m, links oder lynx aus.

Wenn Sie die Ausgabe analysieren oder etwas damit machen möchten, empfehle ich entweder das Linux-Paket html-xml-utils oderSchöne SuppeDies ist ein sehr praktisches Python-Paket für jedes Projekt, das Web-Scraping beinhaltet.

verwandte Informationen