
Estou tentando analisar o site nickjr.com, especificamente "http://www.nickjr.com/paw-patrol/videos/" URL apenas para episódios completos.
nickjr.com tem seu site organizado por título de programa, depois por jogos ou vídeos, pelo menos com patrulha canina, então o URL permanecerá o mesmo até que eu realmente clique para reproduzir um vídeo. Existem vários vídeos no site, mas os episódios completos têm a palavra “episódio completo” no URL.
Exemplo que não é um episódio completo:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/
Exemplo de um episódio completo:
http://www.nickjr.com/paw-patrol/videos/paw-patrol-410-mission-paw-pups-save-the-royal-throne-s4-ep410-full-episode/
Minha ideia é usar o youtube-dl, que funciona no site deles (testado), para baixar episódios, mas não quero baixar todos os episódios porque alguns não são episódios completos. Então, o que estou fazendo agora é acessar cada vídeo e copiar o URL e depois copiá-lo para o youtube-dl. Funciona, mas o site nickjrs é uma droga ao tentar navegar nele.
Eu sei que existem web spiders, mas não consegui encontrar exatamente o que procurava e isso não fazia muito sentido. Mas meu plano seria pesquisar no site e usar regex no URL, mas apenas para escrever os URLs que correspondem à string do episódio completo em um arquivo de texto que eu poderia importar para o youtube-dl.
Então, eu realmente preciso de ajuda para analisar o site apenas para episódios completos, que podem ser salvos em um arquivo de texto.
Além disso, prefiro que o programa seja compatível com Ubuntu 16.04, mas também posso usar o Windows 10 se necessário.
Responder1
Se você usa o Chrome, pode pressionar F12para abrir as ferramentas do desenvolvedor e, em seguida, executar o seguinte pequeno trecho no console para escrever a lista de links:
$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})
Pode funcionar também em outros navegadores, mas só testei no Chrome.