Escreva URLs em um arquivo de texto que corresponda a um padrão

Escreva URLs em um arquivo de texto que corresponda a um padrão

Estou tentando analisar o site nickjr.com, especificamente "http://www.nickjr.com/paw-patrol/videos/" URL apenas para episódios completos.

nickjr.com tem seu site organizado por título de programa, depois por jogos ou vídeos, pelo menos com patrulha canina, então o URL permanecerá o mesmo até que eu realmente clique para reproduzir um vídeo. Existem vários vídeos no site, mas os episódios completos têm a palavra “episódio completo” no URL.

Exemplo que não é um episódio completo:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/

Exemplo de um episódio completo:
http://www.nickjr.com/paw-patrol/videos/paw-patrol-410-mission-paw-pups-save-the-royal-throne-s4-ep410-full-episode/

Minha ideia é usar o youtube-dl, que funciona no site deles (testado), para baixar episódios, mas não quero baixar todos os episódios porque alguns não são episódios completos. Então, o que estou fazendo agora é acessar cada vídeo e copiar o URL e depois copiá-lo para o youtube-dl. Funciona, mas o site nickjrs é uma droga ao tentar navegar nele.

Eu sei que existem web spiders, mas não consegui encontrar exatamente o que procurava e isso não fazia muito sentido. Mas meu plano seria pesquisar no site e usar regex no URL, mas apenas para escrever os URLs que correspondem à string do episódio completo em um arquivo de texto que eu poderia importar para o youtube-dl.

Então, eu realmente preciso de ajuda para analisar o site apenas para episódios completos, que podem ser salvos em um arquivo de texto.

Além disso, prefiro que o programa seja compatível com Ubuntu 16.04, mas também posso usar o Windows 10 se necessário.

Responder1

Se você usa o Chrome, pode pressionar F12para abrir as ferramentas do desenvolvedor e, em seguida, executar o seguinte pequeno trecho no console para escrever a lista de links:

$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})

Pode funcionar também em outros navegadores, mas só testei no Chrome.

informação relacionada