
Ich bin mir bewusst, dassGoogle-Trotteldie erweiterte Operatoren zur Suche nach Schlüsselwörtern im Web verwenden, und Google Dorks ist sowieso kein Regex.
Aus Neugierde habe ich versucht, Platzhalterzeichen in URLs, hauptsächlich für Bilder, auf verschiedenen Websites einzufügen, was jedoch nicht funktioniert hat. Die meisten von ihnen zeigten verschiedene HTTP-Fehlercodes an, mit Ausnahme von 2-3, die auf eine andere Seite innerhalb der Website umleiteten.
Einige Beispiele, die nicht funktioniert haben:
- Suche nach PDFs. Habe
404 : Page Not Found
- Suche nach Bildern. Habe
500 : Internal Server Error
- Suche nach allen HTML-Seiten auf der Website. Einfach Fehlerseite
- YouTube konvertiert Zeichen in sichere Hexadezimalzeichen.
Ein Beispiel, das funktioniert hat (keine Ahnung wie):
Sehen Sie sich dieQuestion Tagged
Abschnitt auf der rechten Seite, um alle Suchanfragen für das Wort anzuzeigenlin*
Ich entschuldige mich, wenn die Frage zu viele Details enthält, aber ich finde es angemessen, einige Beispiele zu geben. Hier also meine Frage:
Können beim Surfen in irgendeiner Weise reguläre Ausdrücke in URLs verwendet werden?
Wenn ja, welche Regeln oder Methoden gelten für ihre Verwendung?
Auch,Abschnitt „Verwendung“Zitieren Sie auf der Wikipedia-Seite für reguläre Ausdrücke Folgendes:
Obwohl Regex-Ausdrücke für Internetsuchmaschinen nützlich wären, könnte ihre Verarbeitung über die gesamte Datenbank hinweg je nach Komplexität und Design des Regex-Ausdrucks übermäßige Computerressourcen verbrauchen. Obwohl Systemadministratoren in vielen Fällen intern auf Regex-basierten Abfragen ausführen können, bieten die meisten Suchmaschinen der Öffentlichkeit keine Regex-Unterstützung an. Bemerkenswerte Ausnahmen: Google Code Search, Exalead. Google Code Search wurde im Januar 2012 eingestellt.[39] Es verwendete einen Trigrammindex, um Abfragen zu beschleunigen.[40]
Ist es also so, dass wir Regex-Suchen in Suchmaschinen durchführen können, aber nicht auf Webseiten?
Antwort1
Im Allgemeinen nicht.(Außerdem sind Platzhalter und reguläre Ausdrücke nicht dasselbe.)
Jede Website entscheidet ganz allein über ihreentscheiden, wie Pfad und Abfrage interpretiert werden sollen. Pfade können tatsächlichen Dateien entsprechen oder abstrakten Ressourcen wie „Fragen“ oder „Beiträgen“ zugeordnet sein. (SuperUser hat beispielsweise keinen Ordner namens „ questions
full“ mit nummerierten Unterordnern – der Pfad sagt ihm nur, welche Antwort generiert werden soll.)
Das bedeutet auch, dass jede Website selbst entscheidet, ob sie Platzhalter (oder reguläre Ausdrücke oder andere Filtermethoden) unterstützt oder nicht. Normalerweise würde das Hinzufügen dieser Funktion zusätzliche Programmierung der Website erfordern.
Wie Sie festgestellt haben, hat Super User Platzhalter zum Durchsuchen der Tags implementiert. Dies ist nützlich, um alle Windows-bezogenen Fragen zu finden (und war wahrscheinlich einfacher zu implementieren als hierarchische Tags).
Aber beispielsweise sind die Video-IDs bei YouTube völlig zufällig, es hat also überhaupt keinen Sinn, alle Videos aufzulisten, deren IDs mit RgK...
oder einem anderen Präfix beginnen. Deshalb hat YouTube das nicht implementiert.
"Normale" Webserver, die nur normale HTML-Dateien bereitstellen,könnteimplementieren diese Funktion, da sie oft bereits über automatische Verzeichniseinträge verfügen. Viele Websitebesitzer möchten dies jedoch nicht – sie haben möglicherweise „nicht gelistete“ Seiten, die nur wenigen Personen bekannt sind.
(Es gibt eine ähnliche Funktion in Apache httpd, mit der Sie eine vollständige Verzeichnisliste erhalten könnenselbst wenneine index.html-Datei ist vorhanden. Sie muss jedoch standardmäßig deaktiviert sein, da sich viele Leute auf index.html als zuverlässige Methode zum Deaktivieren dieser Einträge verlassen.)