Existe um filtro Linux que converte html em texto simples e bem formatado?

Existe um filtro Linux que converte html em texto simples e bem formatado?

Gostaria de filtrar a resposta HTML proveniente da saída cURL. Qual filtro devo aplicar? Visualizar conteúdo html com Midnight Commander não é problema, ele os mostra como texto simples bem formatado, então acho que existe esse filtro.

Responder1

Chamamos esses filtros de "navegadores da Web" - um programa que analisa o código HTML e gera um documento bonito.

Ligaçõesé um dos navegadores de console que roda em Linux.

Elinksé outro.

Também existeW3M.

Você sempre pode copiar seu código HTML para um arquivo de texto e abri-lo com um navegador GUI como Firefox, Chrome, Opera, etc.

Por favor nãouse regex para analisar HTML.

EDITAR. Acabei de perceber que você pode querer embelezar seu HTML e vê-lo com tags. Neste caso você pode usarProjeto de biblioteca HTML arrumadaou

copie seu HTML para um arquivo de texto e coloque-o entre <pre> </pre>tags. Em seguida, abra-o com seu navegador.

Responder2

paralince, a sintaxe é:

curl ... | lynx --stdin

(verComo canalizar HTML para o Lynx?)

Responder3

comandante da meia-noite usa "links" ou "lynx". Suspeito que você tenha um deles instalado se estiver vendo o HTML analisado no mcview.

Responder4

Se você deseja apenas visualizar a saída html do curl de uma forma atraente, w3m, links ou lynx conforme sugerido acima são suficientes.

Se você quiser analisar ou fazer alguma coisa com a saída, eu recomendo o pacote linux html-xml-utils ouSopa Lindaque é um pacote Python muito útil para qualquer projeto que envolva web scraping.

informação relacionada