Close

Как заставить тупой Google видеть обновленный robots.txt

За всю практику впервые столкнулся с такой тупизной Google.

Ситуация такая: нужно было протестировать проект онлайн. Было создано несколько сгенереных текстов, категорий и т.д. Ну скорость проверить по всем метрикам, мобильную версию и т.д. Все как всегда. Но обычно я запускаю с живыми текстами проект, а тут они были еще не готовы. Да, я знаю что как бы нужно делать все оффлайн сначала, но вот так уж вышло.

Чтобы Google не зашел на сайт он был заблокирован 2-мя способами:
1) robots.txt
2)тегом noindex, nofollow

Но гребаный Google не смотря на все запреты сумел проиндексировать достаточное кол-во страниц со сгенеренным (тестовым) текстом. Мало того, он продолжает выкладывать в выдачу эти страницы и сейчас, хотя уже как неделя прошла.

Конечно, я позже убрал всю чушь с проекта и добавил нормальные текста + изменил robots и убрал noindex, nofollow. Но теперь он в упор не хочет индексировать страницы. Мало того, даже при добавлении sitemap в WMT, он пишет что все страницы в sitemap заблокированы в robots.txt

Естественно, я зашел в Сканирование -> Инструмент проверки файла robots.txt, и конечно я обнаружил там фаил недельной давности

User-agent: *
Disallow: /

После обновления страницы, я увидил что Google все же видит новый фаил. На крайняк нажал кнопку "Отправить".

В сухом остатке:

Страницы замечательно заходят в индекс через "Посмотреть как GoogleBot", но чрез день исчезают из индекса. Если забить в google site:mysite.com, то виден микс из старых (сгенеренных) и новых нормальных страниц, где новые помечены как:

"No information is available for this page.
Learn why"

ну то бишь он не выводит их из-за блокировки в robots.txt. Этот маразм длится уже неделю.

Вопрос: как объяснить тупому Google что у меня новый robots.txt, учитывая то что он его види даже в WMT, но не примнимает во внимание.

P.s.: только давайте по существу. Нужен ответ на конкретный вопрос. Спасибо!

P.p.s: картинки бот индексирует замечательно

Источник

Добавить комментарий