Como posso extrair/minerar/persuadir/agradar dados de um site (de preferência) com o OSX?

Como posso extrair/minerar/persuadir/agradar dados de um site (de preferência) com o OSX?

Estou tentando 'capturar' dados de um site.

Existe uma maneira de simplesmente apontar um programa para uma URL e ele pegar tudo nesse domínio. Como devo fazer isso no OSX 10.5? Se realmente necessário, posso usar um Ubuntu ou Windows Box como último recurso.

Responder1

Você pode usar o wgetcomando que édisponível para download para Mac OS Xincluído na maioria das distribuições Linux para baixar todo o conteúdo de um site, imagens, CSS, JavaScript, vídeos, arquivos Flash e tudo.

Depois de fazer isso, abra um terminal. Você provavelmente vai querer chamá-lo assim:

wget -r -l0 -k http://www.example.com/

Isso vai baixartudoacessível http://www.example.com/por links. A -ropção ativa o download recursivo, fazendo download de mais do que apenas a página inicial. A -lopção define quantas páginas de profundidade ele irá procurar links e fazer download, configurando 0como eu fiz irá configurá-lo para ir o mais longe possível. Observe que se o site usar geração dinâmica de páginas, poderá haver muitos downloads, pois pode haver muitos URLs que apontam para conteúdo igual ou muito semelhante. O -kcomando é opcional e fará com que wgettodos os links, tags de imagem, etc. sejam convertidos para o local correto em sua máquina local para que você possa visualizá-los com um navegador da web em seu computador e funcione corretamente.

Observe que ele só baixará arquivos dewww.exemplo.com, e não quaisquer outros domínios. Se você precisar ir para outros domínios, use o -Hswitch para ativá-lo e, em seguida, use a opção -Dswitch para definir os outros domínios dos quais fazer download (por exemplo -D comments.example.com,beta.example.com, ). Tenha cuidado, se você deixar a -Dchave desligada e definir -lcomo 0/infinite você pode muito bem tentar baixar toda a World Wide Web!

Outra opção que pode ser útil é a -Nopção, que definirá o carimbo de data/hora no arquivo local para o horário fornecido pelo Last-Modifiedcabeçalho HTTP no servidor e não baixará arquivos que não foram alterados em downloads subsequentes.

Para mais informações, consultea wgetdocumentação.

informação relacionada