
wget を使用した Web スクレイピングに関する質問にすでに回答がありました。しかし、もう少し読んでいくと、Web クロール プログラムを探しているかもしれないと気づきました。特に、Web クローラーがリンクや、私の場合は製品などの特定のデータを取得できるという部分です。
私のサイトにあるすべての製品には、website.com/uniqueAlphaNumericID.html という命名規則があります。
私の知る限り、動的なコンテンツ生成は使用されておらず、上記の形式で 1 つのアイテムにつき 1 ページのみです。wget website.com | grep *.html
だけを考えればよいのでしょう か、それともスパイダーやクローラーを調べる必要があるのでしょうか。