HTML パーサーを介して HTML から値を抽出する

HTML パーサーを介して HTML から値を抽出する

grep最初は HTML ファイルから/ を直接使用する方法について質問しましたawk。いくつかフィードバックをもらいましたが、HTML 全体を把握していない人がいたため、提案された解決策は失敗しました。

HTML 解析の方がはるかに良い選択肢だと言っている人もいます。私は標準の Linux/Debian Wheezy を搭載した Raspberry Pi で作業しています。

言及されている HTML はここにあります。シンプルな HTML ですが、助けるためにはファイル全体を確認することが重要だと思います。

https://www.dropbox.com/s/9jdgzen2hwjxhjp/main.htm

したがって、必要なのは次のことです。

  • 2 つの値 Pplus と Pminus (18.0000 と 0.00000) を抽出し、それらに加えて SUM も提供します。
  • 両方の値は、生成されたエネルギー P- とネットワークから取得されたエネルギー/電力 P+ を提供するスマート メーター (エネルギー メーター) から取得されます。
  • P - 太陽と太陽光発電所が稼働している場合、つまり 18W は夜間、0.0000 は太陽がないため発電がないことを意味します。これは背景情報としてご説明します。

元のスレッドを更新してサポートを求めようとしましたが、ここ数日新しいフィードバックがないので、誰もそれを見ていないようです。これは、この問題を専門家に持ち帰ろうとする私の試みです。

答え1

このサンプル HTML ファイルを見てみましょう:

<DIV ID="idButtonDiv" STYLE="top:143px; left:0px;" ALIGN="CENTER">
<TABLE CELLSPACING="0" CELLPADDING="0" BORDER="0"><TR><TD ID="idButtonTd">
18.000

</TD></TR></TABLE>
</DIV>

これは簡単に解析できるとは思えません。

関連情報