Google-бот спотыкается на совершенно нормальном robots.txt, а затем на несуществующем robots.txt

2024-6-24 • tag-icon

Google-бот спотыкается на совершенно нормальном robots.txt, а затем на несуществующем robots.txt

У меня есть два доменных имени, указывающих на один и тот же виртуальный сервер. Одно из них,http://ilarikaila.com, это рабочий сайт-брошюра, который я сделал для друга. Я использовал другой,http://teemuleisti.com, провести тест-драйв сайта перед тем, как сделать его общедоступным — оглядываясь назад, можно сказать, что это, вероятно, была плохая идея.

Долгое время Google-бот путался в двух вещах по поводу поиска "ilari kaila", но пока я это писал, вторая проблема, похоже, исчезла (добавлено при редактировании:нет, не было).

Путаница первая

Результаты поиска Google по запросу «ilari kaila» включают ilarikaila.com, но только на третьей странице результатов, и вместо фрагмента с сайта результат включает текст «Описание этого результата недоступно из-за файла robots.txt этого сайта – узнайте больше».

Содержимое файла robots.txtбыло просто

User-agent: *
Allow: /

что, конечно, не должно помешать любому боту перечислить содержимое сайта. Действительно, когда поисковые термины "ilari kaila" были введены вbing.com, сайт появился в качестве первого результата поиска (и по-прежнему появляется), и был показан и отображается правильный фрагмент.

Пару дней назад я robots.txtего вообще удалил (точнее, переименовал not_robots.txt), но Google все равно показывает тот же результат, ссылаясь на robots.txt. (Вероятно, поэтому сайт появляется только на третьей странице результатов поиска.)

Замешательство второе

Первоначально запросы к teemuleisti.com показывали те же страницы, что и ilarikaila.com, потому что я не написал отдельный serverблок для первого в своем nginx.confфайле. Я сделал это пару недель назад и написал одну очень простую HTML-страницу для первого сайта.

Тем не менее, результаты поиска Google по запросу "ilari kaila" показывали ссылки на сайт teemuleisti.com даже примерно через две недели после того, как я сделал это, и даже час назад. Однако эта проблема, похоже, была решена (добавлено при редактировании:нет, не было), пока я писал этот вопрос, возможно, потому, что я только что добавил следующее перенаправление в файл сервера nginx.conf:

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

для перенаправления результатов поиска, таких какhttp://teemuleisti.com/press(который показал фрагмент контента, который на самом деле находитсяhttp://ilarikaila.com/press) на единственную страницу teemuleisti.com, которая теперь информирует посетителей о проблеме с индексацией Google и имеет ссылку на правильный сайт.

Похоже, это помогло Google-bot решить эту проблему — хотя я не вижу, в чем разница, поскольку в домене teemuleisti.com уже несколько недель нет подстраниц — но в чем путаница robots.txt?

Добавлено при редактировании:Если я ввожу в Google запрос «ilari kaila composer», вторая страница результатов поиска по-прежнему указывает на teemuleisti.com, так что эта проблема также пока не решена.

решение1

AllowТаких вещей, как в robots.txt, нет , поэтому ваш robots.txtнедействителен. Это сбивает ботов с толку, поскольку он ожидает только Agentи Disallowописания. Вам следует удалить robots.txt или оставить его пустым, если вы хотите, чтобы весь контекст был проиндексирован.

Больше информации:http://www.robotstxt.org/robotstxt.html

решение1

Связанный контент