ウェブページの数値範囲からリンクを抽出する

Question 1

コードを使用してこれを実行したい場合は、Perl で LWP::Simple または Mechanize モジュールを使用して実行できます。

あなたが探しているものが以下にあるかもしれませんLWP::Simple モジュールを使用して Web ページからすべてのリンクを検索する

これは、Perl を使用したコマンドラインソリューションの使用に慣れていることを前提としています。これは、Windows プラットフォームと Linux プラットフォームの両方で同じように機能します。コマンドラインから URL をパラメータとして取得して解析するように変更するのに、それほど時間はかかりません。

Answer

コードを使用してこれを実行したい場合は、Perl で LWP::Simple または Mechanize モジュールを使用して実行できます。

あなたが探しているものが以下にあるかもしれませんLWP::Simple モジュールを使用して Web ページからすべてのリンクを検索する

これは、Perl を使用したコマンドラインソリューションの使用に慣れていることを前提としています。これは、Windows プラットフォームと Linux プラットフォームの両方で同じように機能します。コマンドラインから URL をパラメータとして取得して解析するように変更するのに、それほど時間はかかりません。

Question 2

はい、これは古き良き bash スクリプトです。これは lynx ブラウザを使用してページから URL を抽出し、テキストファイルにダンプします。

#!/bin/bash
#
# Usage:
#
#   linkextract <start> <end> <pad> <url>
#
#   <start> is the first number in the filename range. Must be an integer
#   <stop> is the last number in the filename range. Must be an integer
#   <pad> is the number of digits the number in the filename is zero-padded to. 
#   <url> is the URL. Insert "<num>" where you want the number to appear. You'll
#         need to enclose the entire argument in quotes

for (( i=${1} ; i<=${2} ; i++ )); do {
    num=$(printf "%04d" ${i})
    url=$(echo ${4} | sed "s/<num>/${num}/")
    lynx -dump -listonly "${url}" | sed -r -n "/^ +[0-9]/s/^ +[0-9]+\. //p"
}; done

lynx ブラウザをインストールする必要があります。これは Debian でパッケージ 'lynx' として利用できます。スクリプトは抽出された URL を stdout に出力します。したがって、質問の例では、次のようにします (スクリプトを linkextract というファイルに保存すると仮定)。

$ linkextract 1 329 3 "http://example.com/page<num>.html"

Answer

はい、これは古き良き bash スクリプトです。これは lynx ブラウザを使用してページから URL を抽出し、テキストファイルにダンプします。

#!/bin/bash
#
# Usage:
#
#   linkextract <start> <end> <pad> <url>
#
#   <start> is the first number in the filename range. Must be an integer
#   <stop> is the last number in the filename range. Must be an integer
#   <pad> is the number of digits the number in the filename is zero-padded to. 
#   <url> is the URL. Insert "<num>" where you want the number to appear. You'll
#         need to enclose the entire argument in quotes

for (( i=${1} ; i<=${2} ; i++ )); do {
    num=$(printf "%04d" ${i})
    url=$(echo ${4} | sed "s/<num>/${num}/")
    lynx -dump -listonly "${url}" | sed -r -n "/^ +[0-9]/s/^ +[0-9]+\. //p"
}; done

lynx ブラウザをインストールする必要があります。これは Debian でパッケージ 'lynx' として利用できます。スクリプトは抽出された URL を stdout に出力します。したがって、質問の例では、次のようにします (スクリプトを linkextract というファイルに保存すると仮定)。

$ linkextract 1 329 3 "http://example.com/page<num>.html"

Question 3

あなたはサイトビジュアライザークローラーこの作品のためにダウンロードしてインストールし、新しいプロジェクト、ウェブサイトのURLを入力し、「OK」をクリックして、クロールを開始ツールボタン。

クロールが完了したら、ダブルクリックしますすべてのリンクの報告レポートタブをクリックします。ウェブサイトにあるすべてのリンクと、ソース/ターゲットリンクのURL、コンテンツタイプ（HTML、画像、PDF、CSSなど）、レスポンスなどのその他の情報が表示されます。テーブル全体を選択し（コンテキストメニューまたはCtrl+Aショートカット）、ヘッダー付きの行をコピーコンテキストメニュー項目。その後、データを Excel シートまたは単純なテキストドキュメントに貼り付けることができます。

すべてのウェブサイトリンクを抽出する

このプログラムには 30 日間の試用期間がありますが、フル機能を備えているため、1 か月間無料で使用できます。

Answer

あなたはサイトビジュアライザークローラーこの作品のためにダウンロードしてインストールし、新しいプロジェクト、ウェブサイトのURLを入力し、「OK」をクリックして、クロールを開始ツールボタン。

クロールが完了したら、ダブルクリックしますすべてのリンクの報告レポートタブをクリックします。ウェブサイトにあるすべてのリンクと、ソース/ターゲットリンクのURL、コンテンツタイプ（HTML、画像、PDF、CSSなど）、レスポンスなどのその他の情報が表示されます。テーブル全体を選択し（コンテキストメニューまたはCtrl+Aショートカット）、ヘッダー付きの行をコピーコンテキストメニュー項目。その後、データを Excel シートまたは単純なテキストドキュメントに貼り付けることができます。

すべてのウェブサイトリンクを抽出する

このプログラムには 30 日間の試用期間がありますが、フル機能を備えているため、1 か月間無料で使用できます。

ウェブページの数値範囲からリンクを抽出する

答え1

答え2

答え3

関連情報