
Estou cienteGoogle idiotasque usam operadores avançados para pesquisar palavras-chave na Web, e o Google Dorks não é Regex de forma alguma.
Por curiosidade, tentei colocar caracteres curinga em URLs principalmente para imagens em vários sites que não funcionaram. A maioria deles mostrou vários códigos de erro HTTP, com exceção de 2-3 que redirecionavam para alguma outra página do site.
Alguns exemplos que não funcionaram:
- Procurando PDFs. Pegou
404 : Page Not Found
- Procurando imagens. Pegou
500 : Internal Server Error
- Procurando por todas as páginas HTML do site. Simplesmente página de erro
- O Youtube converte caracteres em caracteres hexadecimais seguros.
Um exemplo que funcionou (não faço ideia de como):
Veja oQuestion Tagged
seção à direita da página para ver todas as pesquisas pela palavralin*
Peço desculpas se a pergunta contém muitos detalhes, mas acho apropriado dar alguns exemplos. Então, aqui concluo minha pergunta:
As expressões regulares podem ser usadas de alguma forma em URLs durante a navegação?
Em caso afirmativo, quais são as regras ou métodos para usá-los?
Também,Seção de usosna página da Wikipedia para expressões regulares, cite isto:
Embora as expressões regulares sejam úteis em mecanismos de pesquisa da Internet, processá-las em todo o banco de dados pode consumir recursos excessivos do computador, dependendo da complexidade e do design da expressão regular. Embora em muitos casos os administradores de sistema possam executar consultas baseadas em regex internamente, a maioria dos mecanismos de pesquisa não oferece suporte a regex ao público. Exceções notáveis: Google Code Search, Exalead. O Google Code Search foi encerrado em janeiro de 2012.[39] Ele usou um índice trigrama para acelerar as consultas.
Então, é como se pudéssemos fazer pesquisa Regex em mecanismos de pesquisa, mas não em páginas da web?
Responder1
Geralmente, não.(Além disso, curingas e expressões regulares não são a mesma coisa.)
Cada site decide completamente sobre seusaiba como o caminho e a consulta devem ser interpretados. Os caminhos podem corresponder a arquivos reais ou podem ser mapeados para recursos abstratos como "perguntas" ou "postagens". (por exemplo, o SuperUser na verdade não possui uma pasta chamada questions
cheia de subpastas numeradas - o caminho apenas informa qual resposta gerar.)
Isso também significa que cada site decide se suportará curingas (ou expressões regulares, ou qualquer outro método de filtragem) ou não. Normalmente, adicionar esse recurso exigiria programação adicional no site.
Como você descobriu, o superusuário implementou curingas para navegação por tags – é útil para encontrar todas as questões relacionadas ao Windows (e provavelmente foi mais fácil de implementar do que tags hierárquicas).
Mas, por exemplo, os IDs dos vídeos do YouTube são totalmente aleatórios, então não adianta tentar listar todos os vídeos cujos IDs começam com RgK...
ou qualquer outro prefixo. Então o YouTube não implementou isso.
Servidores web "simples", que servem apenas arquivos .html comuns,poderiaimplemente esse recurso, pois muitas vezes eles já possuem listagens automáticas de diretórios. No entanto, muitos proprietários de sites não gostariam disso – eles podem ter páginas “não listadas” que são conhecidas apenas por algumas pessoas, por exemplo.
(Existe um recurso semelhante no Apache httpd, que permite obter uma listagem completa de diretóriosainda queum arquivo index.html está presente. Mas ele precisa ser desabilitado por padrão, porque muitas pessoas confiam no index.html como um método confiável para desabilitar essas listagens.)