
気がついたGoogle ドーク高度な演算子を使用して Web 上のキーワードを検索しますが、Google Dorks は Regex ではありません。
好奇心から、さまざまなサイトの画像の URL にワイルドカード文字を入れてみましたが、うまくいきませんでした。ほとんどのサイトではさまざまな HTTP エラー コードが表示されましたが、2 ~ 3 件は Web サイト内の別のページにリダイレクトされました。
うまくいかなかった例をいくつか挙げます:
- PDFを検索しています。
404 : Page Not Found
- 画像を検索しています。
500 : Internal Server Error
- ウェブサイト上のすべてのHTMLページを検索します。単にエラーページ
- Youtube は文字を安全な 16 進文字に変換します。
うまくいった例(方法はわかりません):
を参照してくださいQuestion Tagged
ページの右側のセクションで、その単語のすべての検索を見ることができますlin*
質問が詳細すぎる場合はお詫びしますが、いくつか例を挙げるのが適切だと思います。それでは、ここで私の質問を終わります。
ブラウジング中に URL で正規表現を使用することはできますか?
もしそうなら、それらを使用するためのルールや方法は何ですか?
また、使用セクションWikipedia の正規表現のページでこれを引用します:
正規表現はインターネット検索エンジンでは便利ですが、データベース全体で正規表現を処理すると、正規表現の複雑さと設計によっては過剰なコンピュータリソースを消費する可能性があります。多くの場合、システム管理者は正規表現ベースのクエリを内部で実行できますが、ほとんどの検索エンジンは正規表現のサポートを一般に提供していません。注目すべき例外: Google Code Search、Exalead。Google Code Searchは2012年1月時点でシャットダウンされています。[39] クエリを高速化するためにトライグラムインデックスを使用していました。[40]
つまり、検索エンジンでは正規表現検索ができて、Web ページではできないということでしょうか?
答え1
一般的には、いいえ。(また、ワイルドカードと正規表現は同じものではありません。)
各ウェブサイトは、パスとクエリをどのように解釈するかを所有します。パスは実際のファイルに対応する場合もあれば、「質問」や「投稿」などの抽象的なリソースにマップされる場合もあります。(たとえば、SuperUser には実際にはquestions
番号付きのサブフォルダーがいっぱいの というフォルダーはありません。パスは、生成する応答を指示するだけです。)
これは、各 Web サイトがワイルドカード (または正規表現、その他のフィルタリング方法) をサポートするかどうかを決定することも意味します。通常、この機能を追加するには、Web サイトに追加のプログラミングが必要になります。
ご存知のとおり、Super User はタグ参照用のワイルドカードを実装しました。これは、Windows 関連のすべての質問を見つけるのに役立ちます (また、階層タグよりも実装が簡単だった可能性があります)。
しかし、たとえば YouTube の動画 ID は完全にランダムなので、ID がRgK...
や他のプレフィックスで始まるすべての動画をリストしようとしてもまったく意味がありません。そのため、YouTube はこれを実装しませんでした。
通常の.htmlファイルを提供するだけの「プレーン」ウェブサーバーは、できた多くの場合、既に自動ディレクトリ リストを持っているため、この機能を実装します。ただし、多くの Web サイト所有者はこれを望んでいません。たとえば、少数の人しか知らない「非公開」ページがある可能性があります。
(Apache httpdにも同様の機能があり、完全なディレクトリリストを取得できます。たとえindex.html ファイルが存在します。ただし、多くの人が実際にそれらのリストを無効にする信頼できる方法として index.html に依存しているため、デフォルトでは無効にする必要があります。