HTML をシンプルできれいにフォーマットされたテキストに変換する Linux フィルターはありますか?

HTML をシンプルできれいにフォーマットされたテキストに変換する Linux フィルターはありますか?

cURL 出力からの HTML 応答をフィルターしたいと思います。どのフィルターを適用すればよいでしょうか? Midnight Commander で HTML コンテンツを表示することは問題なく、きれいにフォーマットされたプレーン テキストとして表示されるので、そのようなフィルターがあると思います。

答え1

私たちはこれらのフィルターを「Web ブラウザー」と呼びます。これは HTML コードを解析してきれいなドキュメントを出力するプログラムです。

リンクLinux 上で動作するコンソール Web ブラウザの 1 つです。

イーリンクスもう一つです。

また、翻訳

いつでも HTML コードをテキスト ファイルにコピーし、Firefox、Chrome、Opera などの GUI ブラウザーで開くことができます。

しないでください正規表現を使用してHTMLを解析する

編集. HTMLをタグ付きで表示して見栄えを良くしたい場合があることに気付きました。この場合、HTML 整理ライブラリ プロジェクトまたは

HTML をテキスト ファイルにコピーし、<pre> </pre>タグで囲みます。次に、ブラウザーで開きます。

答え2

のためにオオヤマネコ構文は次のようになります。

curl ... | lynx --stdin

(見るHTML を Lynx にパイプするにはどうすればいいですか?

答え3

midnight commander は「links」または「lynx」を使用します。mcview で解析された HTML が表示される場合は、どちらかがインストールされていると思われます。

答え4

curl の HTML 出力を魅力的な方法で表示したいだけであれば、上で提案した w3m、links、または lynx で十分です。

出力を解析したり、何かしたい場合は、html-xml-utils Linuxパッケージまたは美しいスープこれは、Web スクレイピングを伴うあらゆるプロジェクトにとって非常に便利な Python パッケージです。

関連情報