탐색하는 동안 URL에 정규 표현식을 사용할 수 있나요?

탐색하는 동안 URL에 정규 표현식을 사용할 수 있나요?

나는 알고있어구글 독스고급 연산자를 사용하여 웹에서 키워드를 검색하며 Google Dorks는 어쨌든 Regex가 아닙니다.

호기심 때문에 나는 대부분 작동하지 않는 다양한 사이트의 이미지에 대해 URL에 와일드카드 문자를 넣어 보았습니다. 웹 사이트 내의 다른 페이지로 리디렉션되는 2-3을 제외하고 대부분은 다양한 HTTP 오류 코드를 표시했습니다.

작동하지 않은 몇 가지 예는 다음과 같습니다.

  • PDF를 검색하는 중입니다. 갖다404 : Page Not Found

PDF 검색

  • 이미지를 검색하는 중입니다. 갖다500 : Internal Server Error

이미지 정규식 검색

  • 웹사이트의 모든 HTML 페이지를 검색합니다. 단순 오류 페이지

HTML 페이지 검색

  • Youtube는 문자를 안전한 16진수 문자로 변환합니다.

유튜브 검색

효과가 있었던 예(어떻게 하는지는 모릅니다):

Windows 태그된 질문

Linux 태그된 질문

참조Question Tagged페이지 오른쪽 섹션에서 해당 단어에 대한 모든 검색어를 볼 수 있습니다.lin*

질문에 너무 자세한 내용이 있으면 사과드립니다. 하지만 몇 가지 예를 제시하는 것이 적절하다고 생각합니다. 그래서 여기서 내 질문을 마무리합니다.

  1. 탐색하는 동안 URL에서 정규 표현식을 어떤 방식으로든 사용할 수 있나요?

  2. 그렇다면 이를 사용하는 규칙이나 방법은 무엇입니까?

  3. 또한,섹션을 사용정규 표현식에 대한 Wikipedia 페이지에서 다음을 인용하십시오.

    정규식은 인터넷 검색 엔진에 유용하지만 전체 데이터베이스에서 정규식을 처리하면 정규식의 복잡성과 디자인에 따라 과도한 컴퓨터 리소스가 소모될 수 있습니다. 대부분의 경우 시스템 관리자는 정규식 기반 쿼리를 내부적으로 실행할 수 있지만 대부분의 검색 엔진은 일반에게 정규식 지원을 제공하지 않습니다. 주목할만한 예외: Google 코드 검색, Exalead. Google 코드 검색은 2012년 1월부터 종료되었습니다.[39] 쿼리 속도를 높이기 위해 트라이그램 인덱스를 사용했습니다.[40]

    그렇다면 검색 엔진에서는 정규식 검색을 할 수 있지만 웹 페이지에서는 할 수 없는 것과 같나요?

답변1

일반적으로 그렇지 않습니다.(와일드카드와 정규식은 동일하지 않습니다.)

각 웹사이트는 전적으로 자신의 판단에 따라 결정합니다.경로와 쿼리를 해석하는 방법을 알고 있어야 합니다. 경로는 실제 파일에 해당할 수도 있고 "질문" 또는 "게시물"과 같은 추상 리소스에 매핑될 수도 있습니다. (예: 슈퍼유저에게는 실제로 번호가 매겨진 하위 폴더로 가득 찬 폴더가 없습니다 questions. 경로는 생성할 응답을 알려줄 뿐입니다.)

이는 또한 각 웹사이트가 와일드카드(또는 정규식 또는 기타 필터링 방법)를 지원할지 여부를 결정한다는 것을 의미합니다. 일반적으로 이 기능을 추가하려면 웹사이트에 추가 프로그래밍이 필요합니다.

발견한 바와 같이 슈퍼 유저는 태그 검색을 위해 와일드카드를 구현했습니다. 이는 모든 Windows 관련 질문을 찾는 데 유용합니다(그리고 아마도 계층적 태그보다 구현하기가 더 쉬웠을 것입니다).

RgK...그러나 예를 들어 YouTube 동영상 ID는 완전히 무작위이므로 ID가 시작 되거나 다른 접두사 로 시작되는 모든 동영상을 나열하는 것은 아무 소용이 없습니다 . 그래서 YouTube는 이를 구현하지 않았습니다.

일반 .html 파일만 제공하는 "일반" 웹서버~할 수 있었다이미 자동 디렉토리 목록이 있는 경우가 많으므로 이 기능을 구현하십시오. 그러나 많은 웹사이트 소유자는 이를 원하지 않습니다. 예를 들어 소수의 사람들에게만 알려진 "비공개" 페이지가 있을 수 있습니다.

(Apache httpd에도 비슷한 기능이 있는데, 이를 통해 전체 디렉토리 목록을 얻을 수 있습니다.설사index.html 파일이 있습니다. 그러나 실제로 많은 사람들이 해당 목록을 비활성화하는 안정적인 방법으로 index.html을 사용하기 때문에 기본적으로 비활성화되어야 합니다.)

관련 정보