wget がファイルをダウンロードする前にファイル名を変更する (ローカルバージョンの名前を変更しない)

Question 1

回避策を試すことができます。

マイルストーンは次のとおりです。

filter.awk次のようなファイルが必要です

/^--.*--  http:\/\/.*[^\/]$/ { u=$3; }
/^Length: [[:digit:]]+/ { print u; }

ステップバイステップ:

wget -r -np --spider http://yourhost | awk -f filter.awk  > My_List.txt
sed -i s/_sh.html/_lg.html/g My_List.txt
wget -x -i My_List.txt

クレジット:
インスピレーションの源この答え。

Answer

回避策を試すことができます。

マイルストーンは次のとおりです。

filter.awk次のようなファイルが必要です

/^--.*--  http:\/\/.*[^\/]$/ { u=$3; }
/^Length: [[:digit:]]+/ { print u; }

ステップバイステップ:

wget -r -np --spider http://yourhost | awk -f filter.awk  > My_List.txt
sed -i s/_sh.html/_lg.html/g My_List.txt
wget -x -i My_List.txt

クレジット:
インスピレーションの源この答え。

Question 2

まず、インデックスファイルを取得します。

wget -O index.html "$URI"

次に、その中の URL を書き換えます。

sed -i '/_sh\(\.html\)/_lg\1/g' index.html

(私は sed を使用しましたが、たとえば XSLT ベースのアプローチの方が好みかもしれません。お好みで選んでください。)

pages/info/*ここで、変更されたインデックスファイルとその元の場所を開始ベース URI として使用して、すべてのを取得するように wget に指示します。

wget --recursive --level=1 \
    --input-file=index.html --force-html --base="$URI" \
    --accept-regex 'pages/info/.*_lg\.html'

注意: これらの長いオプションのほとんどには短い代替オプションがあります - マニュアルページを参照してください。わかりやすくするために長い形式を使用しました。

Answer

まず、インデックスファイルを取得します。

wget -O index.html "$URI"

次に、その中の URL を書き換えます。

sed -i '/_sh\(\.html\)/_lg\1/g' index.html

(私は sed を使用しましたが、たとえば XSLT ベースのアプローチの方が好みかもしれません。お好みで選んでください。)

pages/info/*ここで、変更されたインデックスファイルとその元の場所を開始ベース URI として使用して、すべてのを取得するように wget に指示します。

wget --recursive --level=1 \
    --input-file=index.html --force-html --base="$URI" \
    --accept-regex 'pages/info/.*_lg\.html'

注意: これらの長いオプションのほとんどには短い代替オプションがあります - マニュアルページを参照してください。わかりやすくするために長い形式を使用しました。

関連情報