
我正在嘗試解析 nickjr.com 網站,特別是“http://www.nickjr.com/paw-patrol/videos/" 僅限完整劇集的 URL。
nickjr.com 的網站按節目標題進行佈局,然後按遊戲或視頻進行佈局,至少是 Paw Patrol,因此 URL 將保持不變,直到我實際單擊播放視頻。網站上有多個視頻,但完整劇集的 URL 中帶有“完整劇集”一詞。
不是完整劇集的範例:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/
我的想法是使用 youtube-dl(它確實可以在他們的網站上運行(經過測試))來下載劇集,但我不想下載他們的所有劇集,因為有些不是完整的劇集。所以我現在要做的是轉到每個影片並複製 URL,然後將其複製到 youtube-dl 中。它可以工作,但是 nickjrs 網站的導航很糟糕。
我知道網路蜘蛛的存在,但我並不能真正找到我正在尋找的東西,而且它並沒有多大意義。但我的計劃是搜尋該網站,並在 URL 上使用正規表示式,但僅將與整集字串匹配的 URL 寫入文字文件,然後將其導入到 youtube-dl 中。
所以,我真的需要幫助來解析網站的完整劇集,可以將其保存到文字檔案中。
另外,我希望程式與 Ubuntu 16.04 相容,但如果需要的話我也可以使用 Windows 10。
答案1
如果您使用 Chrome,您可以按 調F12出開發人員工具,然後在控制台中執行以下小片段來編寫連結清單:
$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})
它可能也適用於其他瀏覽器,但我只在 Chrome 上測試過。