
我遇過一個網站,其網頁僅由 JavaScript 組成。該網站託管我想要鏡像的影片。當我在 Firefox 中開啟網站並閱讀頁面原始程式碼時,我在腳本標籤中看到 JavaScript 匯入。當我在 Firefox 中檢查頁面時,我看到 HTML,包括視訊標籤。我認為 JavaScript 已經產生了該 HTML。 (我沒有編寫過 JavaScript,所以我不知道它的複雜性。)
下載原始頁面後,如何擴充 JavaScript?我正在尋找一個可以執行此操作的命令列工具。產生的 HTML 將由正規表示式解析以提取視訊來源檔案名稱。我目前對抓取影片的 bash 腳本的想法結構如下:
wget the.website.com/page/of/javascript/;
cat inThePage.html |
executeJavaScriptAndBuildHTML |
sed "the HTML and extract the video file name" |
while read aVideoFileName; do
wget $aVideoFileName;
done
我想知道是否有這樣的工具;通常 JavaScript 在整個 GUI Web 瀏覽器的上下文中執行。
我有一種預感,純 JavaScript 頁面的全部目的就是防止這種自動下載。