Обсудим как сканировать сайты с низкой скоростью обработки запросов:
- Выбор режима и области сканирования.
- Настройка скорости сканирования.
- Автоматическая остановка и последующее возобновление сканирования.
1. Выбор области сканирования
Если в рамках сканирования медленного сайта вам не обязательно сканировать весь сайт целиком, подвергая его длительной нагрузке, — ограничьте область сканирования. Это можно сделать несколькими способами:
- Ограничить сканирование одной категорией → это можно сделать, указав в поле «Начальный URL» адрес нужного каталога и активировав опцию «Сканировать только внутри раздела» в разделе «Настройки» → «Основные». Учтите, что для этого режима сканирования нужна соответствующая структура URL, при которой URL категории и страниц, которые к ней относятся, начинаются одинаково.
Пример: website.com/category и website/category/first-item.
- Ограничить сканирование при помощи правил → при помощи этой функции вы можете сосредоточиться исключительно на страницах, отвечающих определённым правилам. Это могут быть, к примеру, страницы с адресами, содержащими те или иные слова.
2. Настройка скорости сканирования
Чтобы настроить скорость сканирования с учётом низкой производительности сканируемого сайта, воспользуйтесь следующими настройками раздела «Настройки» → «Основные»:
- Выставьте небольшое количество потоков сканирования → в соответствующем поле выставьте не более 5 потоков, чтобы минимизировать количество одновременных параллельных соединений и снизить нагрузку на сайт.
- Установите задержку между отправкой запросов → в поле «Задержка между запросами, мс» укажите длительность задержки между обращениями краулера к сайту. Задержка активируется для каждого отдельного потока, так что если сайт крайне чувствителен к высокой нагрузке, используйте задержку в сочетании с минимальным количеством потоков.
- Увеличьте время максимального ожидания ответа → по умолчанию Netpeak Spider ждёт ответа от страницы в течение 30 000 миллисекунд, после чего переходит к сканированию следующей страницы. Если вам заведомо известно, что скорость отклика страниц на сканируемом сайте ниже, то вы можете задать в соответствующем поле большее значение.
3. Автоматическая остановка и последующее возобновление сканирования
Если в процессе сканирования вы столкнётесь с кодом ответа 429 Too Many Requests, мы рекомендуем:
-
Открыть «Настройки» → «Продвинутые» и поставить галочки в разделе «Автоматически приостанавливать сканирование»:
- если сайт возвращает код ответа 429 Too Many Requests;
- когда было превышено время ожидания ответа от сервера.
-
Снизить количество потоков.
-
Изменить настройки согласно рекомендациям, описанным в параграфе 1.
-
Сохранить настройки.
Продолжить сканирование, если ошибка возникла в самом начале процедуры; перезапустить сканирование для всего сайта (кнопка «Рестарт»);
выборочно пересканировать отдельные страницы с проблемными кодами ответа.
Статья помогла?
Отлично!
Спасибо за ваш отзыв
Извините, что не удалось помочь!
Спасибо за ваш отзыв
Комментарий отправлен
Мы ценим вашу помощь и постараемся исправить статью