
Estoy intentando analizar el sitio nickjr.com, específicamente "http://www.nickjr.com/paw-patrol/videos/"URL solo para episodios completos.
nickjr.com tiene su sitio organizado por título del programa, luego por juegos o videos, al menos con Paw Patrol, por lo que la URL seguirá siendo la misma hasta que haga clic para reproducir un video. Hay varios videos en el sitio, pero los episodios completos tienen la palabra "episodio completo" en la URL.
Ejemplo que no es un episodio completo:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/
Ejemplo de un episodio completo:
http://www.nickjr.com/paw-patrol/videos/paw-patrol-410-mission-paw-pups-save-the-royal-throne-s4-ep410-full-episode/
Mi idea es usar youtube-dl, que funciona en su sitio (probado), para descargar episodios, pero no quiero descargar todos sus episodios porque algunos no son episodios completos. Entonces, lo que estoy haciendo ahora es ir a cada video y tener que copiar la URL y luego copiarla en youtube-dl. Funciona, pero el sitio de nickjrs apesta al intentar navegar por él.
Sé que las arañas web existen, pero realmente no pude encontrar exactamente lo que estoy buscando y realmente no tenía mucho sentido. Pero mi plan sería buscar en el sitio y usar expresiones regulares en la URL, pero solo para escribir las URL que coincidan con la cadena del episodio completo en un archivo de texto que luego podría importar a youtube-dl.
Entonces, realmente necesito ayuda para analizar el sitio solo para episodios completos, que se pueden guardar en un archivo de texto.
Además, preferiría que el programa fuera compatible con Ubuntu 16.04, pero también puedo usar Windows 10 si es necesario.
Respuesta1
Si usa Chrome, puede presionar F12para que aparezcan las herramientas de desarrollador y luego ejecutar el siguiente pequeño fragmento en la consola para escribir la lista de enlaces:
$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})
Puede que también funcione en otros navegadores, pero solo lo he probado en Chrome.