Чому Netpeak Spider та браузер показують різні дані

Змінено Сб., 27 Лип. на 1:23 ПІСЛЯ ПОЛУДНЯ

У деяких випадках ви можете виявити, що дані Netpeak Spider відрізняються від тих, що ви бачите на сайті. Ось низка причин, через які можлива подібна ситуація:

  1. Неправильна відповідь сервера при зверненні до сторінки. Ця проблема може бути пов'язана з тим, що сервер, на якому розташований даний сайт, некоректно працює при отриманні великої кількості запитів, або на ньому встановлено захист від великої кількості одночасних запитів.

    Показниками такої ситуації можуть бути:
    • значне збільшення часу відповіді сервера (TTFB);
    • велика кількість сторінок, що скануються, які повертають 5хх код відповіді;

      Іноді сервер повертає код відповіді «200 ОК», однак вміст сторінки є неповним та/або некоректним, що видно за відсутніми значеннями у багатьох параметрах. Найпростіший спосіб перевірити, який саме вихідний код був відданий краулеру під час сканування, - задайте налаштування парсингу “XPath” за значенням “/”, оберіть опцію “Внутрішній HTML-код” і запустіть сканування.

      Using Xpath to check the source code
  2. Для різних пристроїв, користувачів та пошукових роботів відображається різний контент. Таким чином, у браузері та Netpeak Spider ви бачите дві різні версії сайту, оскільки вони були сформовані для двох різних User Agent (за умовчанням у Netpeak Spider використовується Google Chrome).

    Щоб перевірити вплив цього параметра на отримані дані, потрібно змінити User Agent у відповідному розділі налаштувань. Наприклад: Пошукові системи → Google → Googlebot.

    Сhange a User Agent to Googlebot


  3. Деякі сайти можуть віддавати різний вміст (наприклад, мовну версію, ціни тощо) залежно від розташування пристрою, з якого здійснюється запит. Щоб переглянути інші версії сайту, скористайтеся функцією доступу за допомогою проксі.

     Using a proxy


  4. Сайт містить інформацію, що відображається користувачем за допомогою JavaScript (JS). За замовчуванням Netpeak Spider сканує лише статичний HTML-код без рендерингу JS-коду.

    Щоб розпочати сканування сторінок з використанням JS, вам необхідно відзначити галочкою пункт "Рендерити JavaScript" на вкладці основних налаштувань. За потреби змініть Ajax Timeout (за замовчуванням встановлено 2 секунди затримки). 


    Enable JavaScript rendering




Ця стаття була корисною?

Чудово!

Дякуємо за відгук

Даруйте, що не вдалося допомогти вам

Дякуємо за відгук

Розкажіть, як ми можемо поліпшити цю статтю!

Виберіть принаймні одну причину
Необхідна перевірка CAPTCHA.

Відгук надіслано

Дякуємо за допомогу! Ми докладемо всіх зусиль, щоби виправити статтю