Обратите внимание, что скорее всего роботы поисковых систем во время сканирования сайта испытывают те же трудности, что и Netpeak Spider. Поэтому следующие ошибки советуем устранять как можно скорее, чтобы избежать возможной пессимизации поисковыми системами и ухудшения поведенческих показателей.
Список причин, из-за которых определённые сайты могут не сканироваться:
-
Сайт закрыт от индексации одним или несколькими из возможных способов — robots.txt, Meta Robots, X-Robots-Tag.
Решения: -
На сайте некорректно прописан canonical. Это часто происходит при переезде на новый протокол.
Решения: -
На сайте запрещён доступ для определённых User Agent, например, для Googlebot.
Решение: сменить текущий User Agent в настройках Netpeak Spider.
-
По каким-то причинам ваш IP-адрес был заблокирован на сканируемом сайте.
Решение: использовать прокси.
-
На сканируемом сайте требуется авторизация.
Решение: прописать данные для входа (логин и пароль) в настройках сканирования в разделе «Аутентификация». Данный способ работает только для базовой аутентификации, которая включается в HTTP-запрос и зачастую используется на этапе разработки сайта.
-
Ошибка «SendFailure» может проявиться на сайтах с HTTPS-протоколом, если вы используете Netpeak Spider на Windows версии ниже 7 SP2, так как такие версии операционных систем не поддерживают шифрование TLS 1.2.
Решения:-
запустить Netpeak Spider на устройстве с Windows 7 SP2 и более поздних версий;
-
если вы владелец сайта, настроить поддержку более ранних версий шифрования (TLS 1.0).
-
-
Ошибка «ConnectFailure» означает, что невозможно установить соединение с сервером. Зачастую она появляется при сканировании сайтов с HTTP-протоколом. Если в поле «Начальный URL» вы ввели только имя домена, срабатывает автоматическая подстановка префикса защищённого протокола HTTPS, что не даёт установить соединение.
Решение: достаточно в начальном URL изменить префикс на http://. -
Сканируемый сайт написан на JavaScript. По умолчанию Netpeak Spider сканирует только статичный HTML-код без рендеринга JavaScript-кода.
Решение: отметить галочкой пункт «Рендерить JavaScript» на вкладке основных настроек. При необходимости измените Ajax Timeout (по умолчанию установлена задержка в 2 секунды). -
Страницы сканируемого сайта с самого начала или с определённого момента отдают 5хх код ответа сервера. Эта проблема может быть связана с тем, что сервер, на котором расположен данный сайт, некорректно работает при получении большого количества запросов, или же на нём установлена защита от большого количества одновременных запросов.
Решения:-
пересканировать только страницы с 5хх кодом ответа сервера: уменьшить количество потоков в настройках на вкладке «Основные», отфильтровать страницы с 5хх кодом ответа и в контекстном меню выбрать пункт «Текущая таблица» → «Пересканировать таблицу»;
-
пересканировать весь проект: аналогично уменьшить количество потоков и повторить сканирование, нажав кнопку «Рестарт».
Мы рекомендуем установить значение в 2 потока. Если проблема повторится снова, следует выставить значение в один поток, а также задать дополнительную задержку между запросами в 2000 мс. Сканирование займёт больше времени, но такие настройки позволят избежать чрезмерной нагрузки на сервер.
-
Обратите внимание, что нагрузка в 5-10 потоков не является слишком большой: мы советуем обеспечить корректную работу сервера при такой нагрузке, чтобы посетители сайта могли быстро и комфортно перемещаться по нему без длительного ожидания ответа. Если вы часто встречаетесь с такими проблемами, рекомендуем провести оптимизацию скорости ответа сервера и/или выбрать более подходящий хостинг.
Статья помогла?
Отлично!
Спасибо за ваш отзыв
Извините, что не удалось помочь!
Спасибо за ваш отзыв
Комментарий отправлен
Мы ценим вашу помощь и постараемся исправить статью