
我知道Google呆子使用高級運算符在 Web 上搜尋關鍵字,而且 Google Dorks 無論如何都不是正規表示式。
出於好奇,我嘗試在 URL 中添加通配符,主要是針對各個網站上的圖像,但沒有成功。其中大多數顯示各種 HTTP 錯誤代碼,但 2-3 個例外,重定向到網站內的其他頁面。
一些不起作用的例子:
- 正在搜尋 PDF。得到
404 : Page Not Found
- 搜尋圖像。得到
500 : Internal Server Error
- 搜尋網站上的所有 HTML 頁面。簡單的錯誤頁面
- Youtube 將字元轉換為安全十六進位字元。
一個有效的例子(不知道如何):
請參閱Question Tagged
頁面右側的部分可查看該詞的所有搜索lin*
如果問題有太多細節,我深表歉意,但我認為舉一些例子是合適的。所以,我在這裡總結我的問題:
瀏覽時可以在 URL 中以任何方式使用正規表示式嗎?
如果是的話,使用它們的規則或方法是什麼?
也,使用部分在正規表示式的維基百科頁面下引用以下內容:
雖然正規表示式在網路搜尋引擎上很有用,但在整個資料庫中處理它們可能會消耗過多的電腦資源,具體取決於正規表示式的複雜性和設計。儘管在許多情況下系統管理員可以在內部執行基於正規表示式的查詢,但大多數搜尋引擎並未向公眾提供正規表示式支援。值得注意的例外:Google 程式碼搜尋、Exalead。 Google 代碼搜尋已於 2012 年 1 月關閉。它使用三元組索引來加速查詢。
那麼,是不是我們可以在搜尋引擎上進行正規表示式搜索,但不能在網頁上進行正規表示式搜尋?
答案1
一般來說,不會。(通配符和正規表示式也不是一回事。)
每個網站完全決定其擁有如何解釋路徑和查詢的能力。路徑可能對應於實際文件,或者它們可能會對應到抽象資源,例如「問題」或「貼文」。 (例如,超級用戶實際上並沒有一個名為「questions
充滿編號子資料夾」的資料夾 - 路徑只是告訴它要產生什麼回應。)
這也意味著每個網站決定是否支援通配符(或正規表示式,或任何其他過濾方法)。通常,添加此功能需要對網站進行額外的編程。
正如您所發現的,超級用戶確實為標籤瀏覽實現了通配符 - 它對於查找所有與 Windows 相關的問題很有用(並且可能比分層標籤更容易實現)。
但是,例如,YouTube 影片 ID 是完全隨機的,因此嘗試列出 ID 以RgK...
或任何其他前綴開頭的所有影片是沒有任何用處的。所以 YouTube 沒有實施這一點。
「普通」網頁伺服器,僅提供普通的 .html 文件,可以實現此功能,因為他們通常已經有自動目錄列表。然而,許多網站所有者不希望這樣——例如,他們可能擁有隻有少數人知道的「未列出」頁面。
(Apache httpd 中有一個類似的功能,它可以讓您獲得完整的目錄列表即使存在一個index.html 檔案。但它必須預設為停用,因為許多人實際上依賴 index.html 作為禁用這些清單的可靠方法。