Як сканувати повільні сайти

Змінено Mon, 09 Oct 2023 о 07:40 PM

Обговоримо як сканувати сайти з низькою швидкістю обробки запитів:

  1. Вибір режиму та області сканування.
  2. Налаштування швидкості сканування.
  3. Автоматична зупинка та подальше відновлення сканування.

1. Вибір області сканування

Якщо в рамках сканування повільного сайту вам не обов'язково сканувати весь сайт повністю, піддаючи його тривалому навантаженню, обмежте область сканування. Це можна зробити кількома способами:

  • Обмежити сканування однією категорією → це можна зробити, вказавши в полі «Початковий URL» адресу потрібного каталогу та активувавши опцію «Сканувати лише всередині розділу» у розділі «Налаштування» → «Основні». Зверніть увагу, що для цього режиму сканування потрібна відповідна структура URL, при якій URL категорії та сторінок, які до неї відносяться, починаються однаково. Приклад: website.com/category і website/category/first-item. 

Limit crawling to one category

  • Обмежити сканування за допомогою правил → за допомогою цієї функції ви можете зосередитись виключно на сторінках, які відповідають певним правилам. Це можуть бути, наприклад, сторінки з адресами, які містять ті чи інші слова. 

2. Налаштування швидкості сканування 

Щоб налаштувати швидкість сканування з урахуванням низької продуктивності сканованого сайту, скористайтеся такими налаштуваннями розділу «Налаштування» → «Основні»:

Crawling speed settings

  • Виставте невелику кількість потоків сканування → у відповідному полі виставте не більше 5 потоків, щоб мінімізувати кількість одночасних паралельних з'єднань та знизити навантаження на сайт.


  • Встановіть затримку між надсиланням запитів → у полі «Затримка між запитами, мс» вкажіть тривалість затримки між зверненнями краулера до сайту. Затримка активується для кожного окремого потоку, тому якщо сайт дуже чутливий до високого навантаження, використовуйте затримку в поєднанні з мінімальною кількістю потоків.


  • Збільште час максимального очікування відповіді → за замовчуванням Netpeak Spider чекає відповіді від сторінки протягом 30 000 мілісекунд, після чого переходить до сканування наступної сторінки. Якщо вам відомо, що швидкість відгуку сторінок на сканованому сайті нижче, то ви можете задати у відповідному полі більше значення.


3. Автоматична зупинка та подальше відновлення сканування

Якщо в процесі сканування ви зіткнетеся з кодом відповіді «429 Too many Requests», ми рекомендуємо:

  1. Відкрити «Налаштування» → «Просунуті» та поставити галочки у розділі «Автоматично призупиняти сканування»:

  • якщо сайт повертає код відповіді 429 Too Many Requests.
  • коли було перевищено час очікування відповіді сервера.

Automatic crawling pause and resuming when 429 code

  1. Зменшити кількість потоків.

  2. Змінити налаштування відповідно до рекомендацій, описаних у пункті 1.

  3. Зберегти налаштування.

  4. Продовжити сканування, якщо помилка виникла на самому початку процедури.  

  5. Перезапустити сканування для всього сайту (кнопка "Рестарт").

  6. Вибірково пересканувати окремі сторінки із проблемними кодами відповіді.

Ця стаття була корисною?

Чудово!

Дякуємо за відгук

Даруйте, що не вдалося допомогти вам

Дякуємо за відгук

Розкажіть, як ми можемо поліпшити цю статтю!

Виберіть принаймні одну причину
Необхідна перевірка CAPTCHA.

Відгук надіслано

Дякуємо за допомогу! Ми докладемо всіх зусиль, щоби виправити статтю