提取 URL 的主機名

提取 URL 的主機名

是否有任何標準化或廣泛使用的方法可以從 URL 中提取諸如“頂級主機名稱”之類的內容?

例如,對於http://images.google.com我喜歡的google.com(即使images.連接不同的伺服器也會http://google.com),而http://www.amazon.co.uk應該給出amazon.co.uk.

所以我想取得刪除任何子網域的主機名稱。

答案1

Mozilla 維護一份二級網域限制的編譯清單。

描述:http://publicsuffix.org/learn/

列表:http://mxr.mozilla.org/mozilla-central/source/netwerk/test/unit/data/test_psl.txt?raw=1

可以解析該列表,並且可以使用導出的規則來檢測第二級域是否是受限制的域,從而主機名稱是否包括第三級域。

相關內容