同じドメインの URL を含む 200 万行の .txt ファイルがあります。このリストの一意のサブドメインのみを抽出する必要があります... 問題は、以下のコマンドを使用すると、出力に一意の URL 全体が返されることです。重複なしで、URL 全体ではなく一意のサブドメイン名のみを抽出する必要があります。何かヒントはありますか? ありがとうございます<3
cat all-urls.txt | grep domain.com.br | uniq -u
出力は次のようになります:
https://sub1.domain.com
https://sub2.domain.com
https://sub3.domain.com
https://sub4.domain.com
https://sub5.domain.com
(...)
答え1
cut -d/ -f3 all-urls.txt | sort -u
そして、私は を無駄に使うことさえしませんでしたcat
。