Close

Screaming Frog не хочет сканировать сайт

Проблема ахтунг! Сайт на тильде. HTTPS, Ответ сервера по проверке 2ip или в вебмастере Яндекса = 200. Лягуха отказывается брать, говорит 307 и стоп на этом. Куда копать?


Ответы:

– 1. Юзерагент попробуй поменять на Яндексовский или Гугловский. Помогают ли таймаут и смена прокси?

– 2.  >>Юзерагент попробуй поменять
Менял на googlebot тоже самое, как то по другому маскироваться надо…

>>таймаут и смена прокси
прокси нет, – timeout там нет, есть сколько страниц – потоков – уменьшаю без результата…

– 3. Копать в сторону замены SSL-сертификата. Если коротко – делайте shared сертификат через CloudFlare и по старой инструкции Тильды направляйте к ним. Поддержка должна отдать старую инструкцию.

– 4. В настройках покопаться: юзер-агент, куки, js (рендеринг + парсинг внешних js) . После чего то из этого, помню, заработало. Еще можно авторизацию в лягушке запустить, пройти все проверки браузера на нероботность.

– 5.  thanks за ответ “4” – работает!

ИТОГО = идем Configuration -> Spider -> advanced – > ставим галки на Allow Cookies и Allways Follow redirects. Проблему изучу позже в подробностях – пока горит, проверить сайт надо…

– 6. Там идет проверка с временным редиректом через внешний домен. Большинство парсеров не исследует редиректы по внешним адресам (хотя, где-то можно включить), поэтому все спотыкаются на первом редиректе. Ситуация осложняется Disallow для этого редиректа в robots.txt. Парсинг такой проверки по правилам невозможен. Понятное дело, что такую проверку на каждой странице делать не будут, она разовая.

Добавить комментарий