ウェブページ上のすべてのハイパーリンクをエクスポートするソリューションが必要です(ウェブサイト全体ではなくウェブページ上)。また、エクスポートしたいリンクを指定する方法が必要です(たとえば、で始まるハイパーリンクのみ)。https://superuser.com/questions/その他すべてを除外します。
テキスト ファイルとしてエクスポートすることをお勧めします。結果は 1 行に 1 つの URL ずつ下に表示されます。
https://superuser.com/questions/1
https://superuser.com/questions/2
https://superuser.com/questions/3
[...]
答え1
Linux または Unix システム (FreeBSD や macOS など) で実行している場合は、ターミナル セッションを開いて次のコマンドを実行できます。
wget -O - http://example.com/webpage.htm | \ 's/href=/\nhref=/g' を実行します | \ grep href=\"http://specify.com | \ 's/.*href="//g;s/".*//g' を sed > out.txt に出力します。
通常、<a href>
1 行に複数のタグがある場合があるため、最初にそれらをカットする必要があります (最初の行では、sed
各キーワードの前に改行を追加してhref
、1 行に複数のキーワードがないようにします)。
このサイトの最初の 10 ページにあるすべての質問など、複数の類似ページからリンクを抽出するには、for
ループを使用します。
i in $(seq 1 10) の場合、 wget -O - http://superuser.com/questions?page=$i | \ 's/href=/\nhref=/g' を実行します | \ grep -E 'href="http://superuser.com/questions/[0-9]+' | \ 's/.*href="//g;s/".*//g' を sed します >> out.txt 終わり
http://example.com/webpage.htm
を実際のページのURLに、http://specify.com
を指定した文字列に置き換えることを忘れないでください。
エクスポートするURLの先頭の文字列だけでなく、上記のコマンドでegrep
または を使用する場合は正規表現パターンも指定できます。Windows を使用している場合は、grep -E
シグウィンWget
パッケージ、grep
、 を選択することを忘れないでくださいsed
。
答え2
Firefoxを使用しても問題ない場合は、アドオンを使用できますスナップリンクプラス
マウスの右ボタンを押したまま、リンクの周囲をドラッグして選択します。
ハイライト表示されたら、Ctrl キーを押しながらマウスの右ボタンを放します。