Извлечение значений из HTML с помощью HTML-парсера

2024-3-28 • tag-icon

Извлечение значений из HTML с помощью HTML-парсера

Сначала я спросил о способе использования grep/ awkнепосредственно из файла HTML. Я получил некоторые отзывы, но я вижу, что у людей не было всего HTML, и поэтому предложенные решения не сработали.

Некоторые упоминали, что парсинг HTML был бы гораздо лучшим вариантом. Я работаю на Raspberry Pi со стандартным Linux/Debian Wheezy.

Упомянутый HTML можно найти здесь, это простой HTML... но я думаю, важно увидеть весь файл, чтобы иметь возможность помочь:

https://www.dropbox.com/s/9jdgzen2hwjxhjp/main.htm

Итак, требуется следующее:

Извлеките два значения, Pplus и Pminus (18,0000 и 0,00000), и предоставьте их, а также укажите СУММУ.
Оба значения поступают от интеллектуального счетчика (счетчика электроэнергии), который показывает выработанную энергию P- и энергию/мощность, полученную из сети P+.
P — в случае работы солнца и солнечной электростанции, то есть 18 Вт — это ночь, 0,0000 означает отсутствие генерации, поскольку нет солнца, просто чтобы дать вам некоторую справочную информацию.

Я попытался обновить и попросить поддержки в исходной ветке, но, похоже, ее больше никто не видел, так как за последние несколько дней не было никаких новых отзывов. Это моя попытка сейчас донести это до экспертов здесь.

решение1

Рассмотрим пример HTML-файла:

<DIV ID="idButtonDiv" STYLE="top:143px; left:0px;" ALIGN="CENTER">
<TABLE CELLSPACING="0" CELLPADDING="0" BORDER="0"><TR><TD ID="idButtonTd">
18.000

</TD></TR></TABLE>
</DIV>

Не похоже, что это будет легко проанализировать.

решение1

Связанный контент