
私はnickjr.comサイトを解析しようとしています。具体的には「http://www.nickjr.com/paw-patrol/videos/「全エピソードのみのURLです。
nickjr.com のサイトは、少なくともパウ・パトロールでは、番組のタイトル別にレイアウトされ、次にゲームやビデオ別にレイアウトされているため、実際にクリックしてビデオを再生するまで URL は同じままです。サイトには複数のビデオがありますが、フルエピソードの URL には「full-episode」という単語が含まれています。
完全なエピソードではない例:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/
完全なエピソードの例:
ロイアル・スローン410ミッション
私の考えは、YouTube-dl を使用してエピソードをダウンロードすることです。YouTube-dl は、サイトで機能する (テスト済み) のですが、一部のエピソードは完全版ではないため、すべてのエピソードをダウンロードしたくありません。そのため、現在行っているのは、各ビデオにアクセスして URL をコピーし、それを YouTube-dl にコピーすることです。これは機能しますが、nickjrs のサイトをナビゲートするのは面倒です。
ウェブスパイダーが存在することは知っていますが、探しているものを正確に見つけることはできず、あまり意味がありませんでした。しかし、私の計画は、サイトを検索し、URL に正規表現を使用して、エピソード全体の文字列に一致する URL のみをテキスト ファイルに書き込んで、それを youtube-dl にインポートすることです。
したがって、テキスト ファイルに保存できる完全なエピソードのみをサイトから解析するための支援が本当に必要です。
また、このプログラムは Ubuntu 16.04 と互換性があることが望ましいですが、必要に応じて Windows 10 を使用することもできます。
答え1
Chrome を使用している場合は、を押してF12開発者ツールを起動し、コンソールで次の小さなスニペットを実行してリンクのリストを書き込むことができます。
$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})
他のブラウザでも動作するかもしれませんが、私は Chrome でのみテストしました。