Googlebotを確認する方法

Googlebotを確認する方法

大手検索エンジン以外のボットをすべてブロックします。

私のブロック方法の 1 つは、「言語」をチェックすることです。Accept-Language

Accept-Language がない場合、ボットの IP アドレスは 2037 年までブロックされます。

GooglebotにはないのでAccept-Language、DNSルックアップで確認したい

<?php
    gethostbyaddr($_SERVER['REMOTE_ADDR']);
?>

使用しても大丈夫ですかgethostbyaddr、誰かが私の「gethostbyaddr保護」を通過することができますか?

答え1

これは Server Fault というより Stack Overflow に聞くべき質問です (SEO サイトの方が実際は最適です)。しかし、そこで得られる情報は非常に信頼性が低いです。Googlebot は、さまざまな IP アドレスから来る可能性があり、DNS の逆引き検索も行われます。何千もの異なるオプションがある可能性があり、そのうちの 1 つが変わると、ほぼ 30 年間正当なボットをブロックしたことになります。

実は、私はStack Overflowの質問はこちらあなたの質問に答えます。これは「Google ボットを識別する方法「」。

検索エンジンは、ユーザー エージェントと IP アドレスで識別します。詳細については、検索エンジン スパイダーとウェブボットを識別する方法を参照してください。このリストも注目に値します。ただし、ユーザー エージェント (またはリモート ホスト) を必ずしも決定的なものとして扱うべきではありません。ユーザー エージェントは、実際には相手側が伝える内容に過ぎず、もちろん何でも伝える自由があります。Googlebot のふりをするコードを書くのは簡単です。

(注記:Googleは実際にボットを検証するためにRDNSを使用することを推奨しているこれは彼らのシナリオでは問題ないかもしれませんが、より広範囲に使用するには明らかに良いアイデアではありません。しかも非常に遅いです。

関連情報