Настройки правил сканирования
Правила сканирования определяют, какие типы URL сайта включить или исключить из просмотра краулером.
1. Общие функции для всех правил
- Чтобы настроить использование правил, активируйте поле «Использовать правила сканирования».
Отключите этот пункт, если вам необходимо просканировать сайт без учёта созданных ранее правил, не удаляя их.
- «Переходить по ссылкам с отфильтрованных URL» → эта настройка является аналогом тега . Отметьте её, чтобы переходить по всем ссылкам со страниц, которые соответствуют установленным правилам.
- Обратите внимание: отфильтрованные URL попадут в таблицу пропущенных результатов и не будут отображаться на вкладке «Все результаты».
- Добавить правило → добавляет новые правила в окно настроек. Также вы можете создать новое условие с помощью горячей клавиши Ctrl+N. Количество возможных правил не ограничено.
-
Логика фильтра → для определения того, как именно будут работать правила, необходимо выбрать логику фильтра:
- И → объединяет несколько правил: значение «true» возвращается только в том случае, если все условия одновременно возвращают значение «true»;
- ИЛИ → значение «true» возвращается, если хотя бы одно из правил отдаёт значение «true».
- Сбросить правила → удаляет все введённые правила.
Если вам нужно удалить одно конкретное правило, нажмите на иконку крестика в правом верхнем углу его строки.
2. Создание правил сканирования
Строка правил содержит два выпадающих меню: для выбора действия и для выбора его условия.
Возможные действия правил:
- Включить → краулер будет добавлять в таблицу URL, которые соответствуют заданным условиям;
- Исключить → URL, которые соответствуют заданным условиям, краулер будет заносить в таблицу «Пропущенные URL».
Возможные условия правил:
- Содержит → для ограничения сканирования по содержанию в URL текстового значения, прописанного вами, например, по категории.
- С точным соответствием → для поиска или исключения определённого URL, из отчёта.
- Соответствует регулярному выражению → позволяет включить / исключить URL, используя регулярные выражения. Например, чтобы получить URL определённого уровня вложенности.
- Начинается с → включает / исключает URL, которые начинаются со значения, заданного в строке.
- Заканчивается на → включает / исключает URL, которые заканчиваются на заданное значение.
- Длина → для ограничения сканирования по количеству символов в URL. Здесь также задаются знак математического равенства (=) и знаки сравнения (<, >, ≤, ≥, NULL).
3. Комбинирование условий и настроек
Вы можете комбинировать предложенные выше условия между собой и с другими настройками необходимым для вас образом. Например, чтобы просканировать страницы поддомена support.netpeaksoftware.com, URL которых содержит слово «spider», и расположены не дальше двух кликов от начального URL:
-
На вкладке настроек «Ограничения» выберите максимальную глубину сканирования: 2.
-
Перейдите на вкладку «Правила» и настройте следующие условия:
-
Включить URL, начинающиеся с «https://support.netpeaksoftware.com/»;
-
Включить URL, которые содержат «spider».
-
-
Установите логику правил «И».
Статья помогла?
Отлично!
Спасибо за ваш отзыв
Извините, что не удалось помочь!
Спасибо за ваш отзыв
Комментарий отправлен
Мы ценим вашу помощь и постараемся исправить статью