Extraindo links de um intervalo numérico de páginas da web

Question 1

Se você quiser usar código para fazer isso, você pode fazê-lo em Perl usando os módulos LWP::Simple ou Mechanize.

O seguinte pode ter o que você procuraEncontre todos os links de uma página da web usando o módulo LWP::Simple

Isso pressupõe que você se sinta confortável em usar uma solução de linha de comando usando Perl. Isso funciona da mesma forma nas plataformas Windows e Linux. Não demoraria muito para modificar os URLs como parâmetros da linha de comando para analisar.

Answer

Se você quiser usar código para fazer isso, você pode fazê-lo em Perl usando os módulos LWP::Simple ou Mechanize.

O seguinte pode ter o que você procuraEncontre todos os links de uma página da web usando o módulo LWP::Simple

Isso pressupõe que você se sinta confortável em usar uma solução de linha de comando usando Perl. Isso funciona da mesma forma nas plataformas Windows e Linux. Não demoraria muito para modificar os URLs como parâmetros da linha de comando para analisar.

Question 2

Sim, é um bom e velho script bash. Isso usa o navegador lynx para extrair os URLs das páginas e despejá-los em um arquivo de texto:

#!/bin/bash
#
# Usage:
#
#   linkextract <start> <end> <pad> <url>
#
#   <start> is the first number in the filename range. Must be an integer
#   <stop> is the last number in the filename range. Must be an integer
#   <pad> is the number of digits the number in the filename is zero-padded to. 
#   <url> is the URL. Insert "<num>" where you want the number to appear. You'll
#         need to enclose the entire argument in quotes

for (( i=${1} ; i<=${2} ; i++ )); do {
    num=$(printf "%04d" ${i})
    url=$(echo ${4} | sed "s/<num>/${num}/")
    lynx -dump -listonly "${url}" | sed -r -n "/^ +[0-9]/s/^ +[0-9]+\. //p"
}; done

Você precisará instalar o navegador lynx, que está disponível no Debian como o pacote ‘lynx’. O script imprime os URLs extraídos em stdout. Então, para o exemplo da sua pergunta, você faria (supondo que você salve o script em um arquivo chamado linkextract):

$ linkextract 1 329 3 "http://example.com/page<num>.html"

Answer

Sim, é um bom e velho script bash. Isso usa o navegador lynx para extrair os URLs das páginas e despejá-los em um arquivo de texto:

#!/bin/bash
#
# Usage:
#
#   linkextract <start> <end> <pad> <url>
#
#   <start> is the first number in the filename range. Must be an integer
#   <stop> is the last number in the filename range. Must be an integer
#   <pad> is the number of digits the number in the filename is zero-padded to. 
#   <url> is the URL. Insert "<num>" where you want the number to appear. You'll
#         need to enclose the entire argument in quotes

for (( i=${1} ; i<=${2} ; i++ )); do {
    num=$(printf "%04d" ${i})
    url=$(echo ${4} | sed "s/<num>/${num}/")
    lynx -dump -listonly "${url}" | sed -r -n "/^ +[0-9]/s/^ +[0-9]+\. //p"
}; done

Você precisará instalar o navegador lynx, que está disponível no Debian como o pacote ‘lynx’. O script imprime os URLs extraídos em stdout. Então, para o exemplo da sua pergunta, você faria (supondo que você salve o script em um arquivo chamado linkextract):

$ linkextract 1 329 3 "http://example.com/page<num>.html"

Question 3

Você pode usar oRastreador do Visualizador de Sitepara este trabalho. Baixe e instale-o e clique emNovo projeto, digite o URL do seu site, clique em OK eIniciar rastreamentobotão de ferramenta.

Após a conclusão do rastreamento, clique duas vezesTodos os linksrelatório doRelatóriosaba. Você receberá todos os links presentes no site, bem como outras informações: URLs de links de origem/destino, tipo de conteúdo (HTML, imagem, pdf, css, etc.), resposta e assim por diante. Selecione toda a tabela (menu de contexto ou atalho Ctrl+A) e clique emCopiar linhas com cabeçalhositem do menu de contexto. Depois disso, você pode colar os dados em uma planilha Excel ou em um documento de texto simples:

extrair todos os links do site

O programa tem um período de teste de 30 dias, mas é completo, então você pode usá-lo gratuitamente por 1 mês.

Answer

Você pode usar oRastreador do Visualizador de Sitepara este trabalho. Baixe e instale-o e clique emNovo projeto, digite o URL do seu site, clique em OK eIniciar rastreamentobotão de ferramenta.

Após a conclusão do rastreamento, clique duas vezesTodos os linksrelatório doRelatóriosaba. Você receberá todos os links presentes no site, bem como outras informações: URLs de links de origem/destino, tipo de conteúdo (HTML, imagem, pdf, css, etc.), resposta e assim por diante. Selecione toda a tabela (menu de contexto ou atalho Ctrl+A) e clique emCopiar linhas com cabeçalhositem do menu de contexto. Depois disso, você pode colar os dados em uma planilha Excel ou em um documento de texto simples:

extrair todos os links do site

O programa tem um período de teste de 30 dias, mas é completo, então você pode usá-lo gratuitamente por 1 mês.

Extraindo links de um intervalo numérico de páginas da web

Responder1

Responder2

Responder3

informação relacionada