Extrahieren Sie mehrzeilige Zeichenfolgen aus einer HTML-Datei unter Verwendung bestimmter Tags

Question 1

Regex ist nicht wirklich in der Lage, HTML vollständig zu analysieren.

Es gibt ein Kommandozeilentool namensxidelDamit können Sie XPath- oder CSS-Selektoren verwenden, um die gewünschten Teile herauszuziehen.

So etwas würde Ihre angegebene Anforderung erfüllen:

./xidel test.html --extract '//span[@class="style530"]' --output-format bash

Beachten Sie jedoch, dass dies mehr als die erforderliche Ausgabe zurückgibt, da Sie eine nicht geschlossene<span class="style530">

Answer

Regex ist nicht wirklich in der Lage, HTML vollständig zu analysieren.

Es gibt ein Kommandozeilentool namensxidelDamit können Sie XPath- oder CSS-Selektoren verwenden, um die gewünschten Teile herauszuziehen.

So etwas würde Ihre angegebene Anforderung erfüllen:

./xidel test.html --extract '//span[@class="style530"]' --output-format bash

Beachten Sie jedoch, dass dies mehr als die erforderliche Ausgabe zurückgibt, da Sie eine nicht geschlossene<span class="style530">

Question 2

Verwenden Sie HTMLParser für solche Aktionen:

#!/usr/bin/python
# vim: set fileencoding=utf8 :
# (c) fazie

from HTMLParser import HTMLParser
import re
import sys

class MyParser(HTMLParser):
    inside_span = False

    def __init__(self,file):
        HTMLParser.__init__(self)
        f = open(file)
        self.feed(f.read())

    def handle_starttag(self,tag,attrs):
        if tag == 'span':
            for name,value in attrs:
                if name=='class' and value=='style530':
                    self.inside_span=True

    def handle_data(self,data):
        data = data.strip(' \t\r\n')
        if data != "":
            if self.inside_span:
                data = re.sub('\n',' ',data)
                data = re.sub('\s\s+',' ',data)
                print data

    def handle_endtag(self,tag):
        if tag == 'span':
            self.inside_span=False

MyParser(sys.argv[1])

Starte es:

python myparser.py inputfile.html

Answer

Verwenden Sie HTMLParser für solche Aktionen:

#!/usr/bin/python
# vim: set fileencoding=utf8 :
# (c) fazie

from HTMLParser import HTMLParser
import re
import sys

class MyParser(HTMLParser):
    inside_span = False

    def __init__(self,file):
        HTMLParser.__init__(self)
        f = open(file)
        self.feed(f.read())

    def handle_starttag(self,tag,attrs):
        if tag == 'span':
            for name,value in attrs:
                if name=='class' and value=='style530':
                    self.inside_span=True

    def handle_data(self,data):
        data = data.strip(' \t\r\n')
        if data != "":
            if self.inside_span:
                data = re.sub('\n',' ',data)
                data = re.sub('\s\s+',' ',data)
                print data

    def handle_endtag(self,tag):
        if tag == 'span':
            self.inside_span=False

MyParser(sys.argv[1])

Starte es:

python myparser.py inputfile.html

Question 3

Sie können etwas wie das Folgende ausprobieren.

awk -vRS='<' '
  inside || /^span[^>]*class="style530"/ {
    inside = 1
    if (/^span/)
      n++
    else if (/^\/span>/ && !--n) {
      $0="/span>\n"
      inside=0
    }
    printf "<%s", $0
  }' file.html | sed '/^</ d' | grep -v ">$"

Es ist jedoch nicht ratsam, HTML-Header zu verwenden. Bitte beachten SieHierwarum Sie HTML-Seiten nicht analysieren sollten. Ich würde Ihnen empfehlen, die HTML-Header zu verwenden curlund w3mzu entfernen, danach wird die Analyse etwas einfacher.

Answer

Sie können etwas wie das Folgende ausprobieren.

awk -vRS='<' '
  inside || /^span[^>]*class="style530"/ {
    inside = 1
    if (/^span/)
      n++
    else if (/^\/span>/ && !--n) {
      $0="/span>\n"
      inside=0
    }
    printf "<%s", $0
  }' file.html | sed '/^</ d' | grep -v ">$"

Es ist jedoch nicht ratsam, HTML-Header zu verwenden. Bitte beachten SieHierwarum Sie HTML-Seiten nicht analysieren sollten. Ich würde Ihnen empfehlen, die HTML-Header zu verwenden curlund w3mzu entfernen, danach wird die Analyse etwas einfacher.

Question 4

Für einfache Extraktionen aus XML/HTML-Texten verwende ich gerne xidel mitCSS-Selektoren.

Um in diesem Beispiel alle spanElemente auszuwählen, deren Attribut classdas Wort enthält style530, können wir verwenden

xidel --css span.style530 --xml

xidelhat viele Optionen. Die Eingabe von question ist etwas laut. In weniger lauten Situationen --xmlerhalten wir möglicherweise etwas wie

<xml>
  <span class="style530">case 1 </span>
  <span class="menu style530 otherclass">case 2 </span>
  ...
</xml>

Answer

Für einfache Extraktionen aus XML/HTML-Texten verwende ich gerne xidel mitCSS-Selektoren.

Um in diesem Beispiel alle spanElemente auszuwählen, deren Attribut classdas Wort enthält style530, können wir verwenden

xidel --css span.style530 --xml

xidelhat viele Optionen. Die Eingabe von question ist etwas laut. In weniger lauten Situationen --xmlerhalten wir möglicherweise etwas wie

<xml>
  <span class="style530">case 1 </span>
  <span class="menu style530 otherclass">case 2 </span>
  ...
</xml>

Extrahieren Sie mehrzeilige Zeichenfolgen aus einer HTML-Datei unter Verwendung bestimmter Tags

Antwort1

Antwort2

Antwort3

Antwort4

verwandte Informationen