Почему Netpeak Spider и браузер показывают разные данные?

Изменено Пн, 9 Окт, 2023 на 7:45 PM

В некоторых случаях вы можете обнаружить, что данные в Netpeak Spider отличаются от тех, что вы видите на сайте. Вот ряд причин, из-за которых возможна подобная ситуация:

  1. Некорректный ответ сервера при обращении к странице. Эта проблема может быть связана с тем, что сервер, на котором расположен данный сайт, некорректно работает при получении большого количества запросов, или же на нём установлена защита от большого количества одновременных запросов.

    Показателями такой ситуации могут быть:

    • значительное увеличение времени ответа сервера (TTFB);

    • большое количество сканируемых страниц, которые возвращают 5хх код ответа.

      Иногда сервер возвращает код ответа «200 ОК», однако содержимое страницы является неполным и/или некорректным, что видно по отсутствующим значениям во множестве параметров. Самый простой способ проверить, какой именно исходный код был отдан краулеру в ходе сканирования, — задайте настройки парсинга «XPath» по значению «/», выберите опцию «Внутренний HTML-код» и запустите сканирование.

  2. Для различных устройств, пользователей и поисковых роботов отображается разный контент. Таким образом, в браузере и Netpeak Spider вы видите две разные версии сайта, так как они были сформированы для двух разных User Agent (по умолчанию в Netpeak Spider используется Google Chrome).

    Чтобы проверить влияние этого параметра на получаемые данные, нужно изменить User Agent в соответствующем разделе настроек. Например: Поисковые системы → Google → Googlebot.

    Проверям как Google видит наш сайт

  3. Некоторые сайты могут отдавать различное содержимое (например, языковую версию, цены и т.д.) в зависимости от местоположения устройства, с которого осуществляется запрос. Чтобы просмотреть другие версии сайта, воспользуйтесь функцией доступа с помощью прокси.

    Использовать прокси

  4. Сайт содержит информацию, которая отображается пользователю с помощью JavaScript (JS). По умолчанию Netpeak Spider сканирует только статичный HTML-код без рендеринга JS-кода.

    Чтобы начать сканирование страниц с использованием JS, вам необходимо отметить галочкой пункт «Рендерить JavaScript» на вкладке основных настроек. При необходимости измените Ajax Timeout (по умолчанию установлена задержка в 2 секунды).

  5. Включить рендеринг JavaScript

Статья помогла?

Отлично!

Спасибо за ваш отзыв

Извините, что не удалось помочь!

Спасибо за ваш отзыв

Расскажите, как мы можем улучшить эту статью!

Выберите хотя бы одну причину
Требуется проверка CAPTCHA.

Комментарий отправлен

Мы ценим вашу помощь и постараемся исправить статью