將與模式相符的 URL 寫入文字文件

將與模式相符的 URL 寫入文字文件

我正在嘗試解析 nickjr.com 網站,特別是“http://www.nickjr.com/paw-patrol/videos/" 僅限完整劇集的 URL。

nickjr.com 的網站按節目標題進行佈局,然後按遊戲或視頻進行佈局,至少是 Paw Patrol,因此 URL 將保持不變,直到我實際單擊播放視頻。網站上有多個視頻,但完整劇集的 URL 中帶有“完整劇集”一詞。

不是完整劇集的範例:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/

完整劇集的範例:
http://www.nickjr.com/paw-patrol/videos/paw-patrol-410-mission-paw-pups-save-the-royal-throne-s4-ep410-full-episode/

我的想法是使用 youtube-dl(它確實可以在他們的網站上運行(經過測試))來下載劇集,但我不想下載他們的所有劇集,因為有些不是完整的劇集。所以我現在要做的是轉到每個影片並複製 URL,然後將其複製到 youtube-dl 中。它可以工作,但是 nickjrs 網站的導航很糟糕。

我知道網路蜘蛛的存在,但我並不能真正找到我正在尋找的東西,而且它並沒有多大意義。但我的計劃是搜尋該網站,並在 URL 上使用正規表示式,但僅將與整集字串匹配的 URL 寫入文字文件,然後將其導入到 youtube-dl 中。

所以,我真的需要幫助來解析網站的完整劇集,可以將其保存到文字檔案中。

另外,我希望程式與 Ubuntu 16.04 相容,但如果需要的話我也可以使用 Windows 10。

答案1

如果您使用 Chrome,您可以按 調F12出開發人員工具,然後在控制台中執行以下小片段來編寫連結清單:

$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})

它可能也適用於其他瀏覽器,但我只在 Chrome 上測試過。

相關內容