Ситуация такая: нужно было протестировать проект онлайн. Было создано несколько сгенереных текстов, категорий и т.д. Ну скорость проверить по всем метрикам, мобильную версию и т.д. Все как всегда. Но обычно я запускаю с живыми текстами проект, а тут они были еще не готовы. Да, я знаю что как бы нужно делать все оффлайн сначала, но вот так уж вышло.
Чтобы Google не зашел на сайт он был заблокирован 2-мя способами:
1) robots.txt
2)тегом noindex, nofollow
Но гребаный Google не смотря на все запреты сумел проиндексировать достаточное кол-во страниц со сгенеренным (тестовым) текстом. Мало того, он продолжает выкладывать в выдачу эти страницы и сейчас, хотя уже как неделя прошла.
Конечно, я позже убрал всю чушь с проекта и добавил нормальные текста + изменил robots и убрал noindex, nofollow. Но теперь он в упор не хочет индексировать страницы. Мало того, даже при добавлении sitemap в WMT, он пишет что все страницы в sitemap заблокированы в robots.txt
Естественно, я зашел в Сканирование -> Инструмент проверки файла robots.txt, и конечно я обнаружил там фаил недельной давности
User-agent: *
Disallow: /
После обновления страницы, я увидил что Google все же видит новый фаил. На крайняк нажал кнопку "Отправить".
В сухом остатке:
Страницы замечательно заходят в индекс через "Посмотреть как GoogleBot", но чрез день исчезают из индекса. Если забить в google site:mysite.com, то виден микс из старых (сгенеренных) и новых нормальных страниц, где новые помечены как:
"No information is available for this page.
Learn why"
ну то бишь он не выводит их из-за блокировки в robots.txt. Этот маразм длится уже неделю.
Вопрос: как объяснить тупому Google что у меня новый robots.txt, учитывая то что он его види даже в WMT, но не примнимает во внимание.
P.s.: только давайте по существу. Нужен ответ на конкретный вопрос. Спасибо!
P.p.s: картинки бот индексирует замечательно