Запишите URL-адреса в текстовый файл, соответствующие шаблону

Запишите URL-адреса в текстовый файл, соответствующие шаблону

Я пытаюсь проанализировать сайт nickjr.com, а именно "http://www.nickjr.com/paw-patrol/videos/" URL только для полных эпизодов.

nickjr.com разметил свой сайт по названию шоу, затем по играм или видео, по крайней мере, в Paw Patrol, так что URL останется прежним, пока я не нажму, чтобы воспроизвести видео. На сайте есть несколько видео, но полные эпизоды имеют слово "full-episode" в URL.

Пример, который не является полным эпизодом:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/

Пример целого эпизода:
http://www.nickjr.com/paw-patrol/videos/paw-patrol-410-mission-paw-pups-save-the-royal-throne-s4-ep410-full-episode/

Моя идея — использовать youtube-dl, который работает на их сайте (проверено), чтобы загружать эпизоды, но я не хочу загружать все их эпизоды, потому что некоторые из них не являются полными эпизодами. Поэтому то, что я делаю сейчас, это захожу на каждое видео и копирую URL, а затем копирую его в youtube-dl. Это работает, но сайт nickjrs отстой, если пытаться по нему перемещаться.

Я знаю, что существуют веб-пауки, но я не смог найти именно то, что искал, и это не имело особого смысла. Но мой план был бы в том, чтобы искать на сайте и использовать регулярные выражения в URL, но только для того, чтобы записать URL, которые соответствуют строке полного эпизода, в текстовый файл, который я затем мог бы импортировать в youtube-dl.

Итак, мне действительно нужна помощь в анализе сайта только для полных эпизодов, которые можно сохранить в текстовый файл.

Кроме того, я бы предпочел, чтобы программа была совместима с Ubuntu 16.04, но при необходимости я могу использовать и Windows 10.

решение1

Если вы используете Chrome, вы можете нажать , F12чтобы открыть инструменты разработчика, а затем запустить следующий небольшой фрагмент в консоли, чтобы записать список ссылок:

$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})

Возможно, это сработает и в других браузерах, но я тестировал только в Chrome.

Связанный контент