
Я наткнулся на сайт, страницы которого состоят исключительно из JavaScript. На этом сайте размещены видео, которые я хотел бы отразить. Когда я открываю этот сайт в Firefox и читаю исходный код страницы, я вижу импорт JavaScript в тегах скрипта. Когда я просматриваю страницу в Firefox, я вижу HTML, включая тег видео. Я предполагаю, что JavaScript сгенерировал этот HTML. (Я не программировал JavaScript, поэтому не знаю его тонкостей.)
Как мне расширить JavaScript после загрузки исходной страницы? Мне нужен инструмент командной строки, который это делает. Полученный HTML должен быть проанализирован регулярным выражением для извлечения имени исходного файла видео. Моя текущая идея скрипта bash, который захватывает видео, структурирована следующим образом:
wget the.website.com/page/of/javascript/;
cat inThePage.html |
executeJavaScriptAndBuildHTML |
sed "the HTML and extract the video file name" |
while read aVideoFileName; do
wget $aVideoFileName;
done
Интересно, существует ли такой инструмент? Обычно JavaScript выполняется в контексте всего графического интерфейса веб-браузера.
У меня есть подозрение, что весь смысл страницы «только JavaScript» заключается в том, чтобы предотвратить такую автоматическую загрузку.