특정 웹페이지 목록에서만 키워드를 정확하게 검색하시겠습니까?

특정 웹페이지 목록에서만 키워드를 정확하게 검색하시겠습니까?

307개의 웹페이지 URL 목록이 있습니다. Google(또는 다른 검색 엔진)이 해당 307개 웹사이트에서만 특정 키워드를 검색하도록 지시하는 것이 가능합니까?

나는 스크립트나 유사한 도구를 사용하여 목록을 순환하고 각 목록 항목에 대해 Google 검색을 수행하라는 몇 가지 조언을 읽었습니다. 하지만 이렇게 하면 Google이 당신을 봇이라고 생각하고 검색을 차단하게 되지 않을까요?

또 다른 제안 방법은 wget(아마도 스크립트 사용) 또는 이와 유사한 기능을 사용하여 307개 웹페이지를 다운로드한 다음 다운로드한 웹페이지에서 로컬 검색을 수행하는 것입니다. 하지만 Google 검색은 거의 즉각적으로 이루어지지만 시간이 오래 걸립니다.

Google에는 URL 목록에서 검색할 수 있는 방법이 내장되어 있지 않습니까?

답변1

여기에는 몇 가지 질문이 있습니다. 적절한 순서대로 답변해 드리겠습니다.

Google(또는 다른 검색 엔진)이 해당 307개 웹사이트에서만 특정 키워드를 검색하도록 지시하는 것이 가능합니까?

구글을 한번 보세요검색 옵션. "이렇게"라고 인용하면 정확한 용어를 찾을 수 있습니다. 그런 다음 다음을 기준으로 필터링할 수 있습니다.도메인(url과 동일하지 않습니다!) site:옵션을 사용하세요. 귀하의 경우 다음 형식으로 검색 문자열을 작성합니다.

"keyword" site:site1.com site:site2.com ...site:site307.com

...스크립트로 목록을 순환합니다... 하지만 Google에서는 당신이 봇이라고 생각하지 않을까요?

스크립트를 통해 여러 Google 검색을 수행할 때 일반적인 접근 방식은 의심스러워 보이지 않도록 (아마도 무작위로) 지연을 삽입하는 것입니다.


...wget을 사용하여 307개의 웹페이지를 다운로드하세요... 시간이 오래 걸릴 것입니다.

때때로 해당 웹사이트를 확인해야 하는 경우 웹페이지의 로컬 복사본을 저장하고 주기적으로 새로 고치는 것을 고려할 수 있습니다. 그러면 지역 검색이 매우 빨라질 것입니다. 그렇지 않으면 Google은 캐시된 결과로 작동하고 연결 및 다운로드를 기다릴 필요가 없기 때문에 더 빨라질 것입니다. 하지만 웹사이트가 다운되거나 심각한 문제가 발생하지 않는 한 30초 정도 안에 모든 것이 끝나야 합니다. 라는 파일에 URL 목록이 있다고 가정하면 list.txt다음을 실행하면 됩니다.

cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'일치하는 콘텐츠를 보려는 경우 또는:
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'URL의 경우 또는: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'둘 다를 표시하려는 경우.


Google에는 URL 목록에서 검색할 수 있는 방법이 내장되어 있지 않습니까?

네, 있어요맞춤 검색:

Google 맞춤 검색을 사용하면 다음을 수행할 수 있습니다.
- 지정된 사이트 또는 페이지 모음을 검색하는 맞춤 검색 엔진을 만듭니다.

관련 정보