Usando wget com Streamcloud e páginas onde você tem que esperar

Usando wget com Streamcloud e páginas onde você tem que esperar

Sou novo em scripts bash e quando ouvi falar de "wget", decidi escrever um script para baixar apenas o arquivo .mp4 de um link streamcloud (ou qualquer outro).

Eu uso normalmente como:

wget -q -O - http://somelink.com | grep keyword

Mas o problema que estou tendo é que estou obtendo a fonte do site onde tenho que esperar alguns segundos até "ir para o vídeo", e obviamente não é onde posso encontrar o link do arquivo mp4. Então, eu gostaria de saber como posso obter a fonte da página que você acessa após a espera, onde você pode realmente assistir ao vídeo e cuja fonte contém o link mp4 (então eu poderia fazer o grep).

Na verdade, posso obter o link mp4 manualmente, mas gostaria apenas de automatizá-lo por meio de um script de shell.

Muito obrigado! Qualquer ajuda seria apreciada!

Responder1

Você precisa salvar a saída do wget em um arquivo e observar o html para ver como eles estão implementando o tempo limite e o redirecionamento. Existem diversas técnicas que podem estar sendo utilizadas. Por exemplo, o mais simples é uma linha como esta no cabeçalho do html:

<meta http-equiv="refresh" content="2;url=http://newurl/"> 

Isso faz com que o navegador acesse o novo URL após 2 segundos. Você precisa usar uma ferramenta como sed para extrair o URL e então executar o wget novamente no novo URL.

Soluções mais complicadas envolvem javascript.

informação relacionada