Налаштування правил сканування

Змінено Mon, 09 Oct 2023 о 07:42 PM

Правила сканування визначають, які типи URL-адреси сайту включити або виключити з перегляду краулером.

1. Загальні функції для всіх правил

Common functions for all rules

  • Щоб налаштувати використання правил, активуйте поле «Використовувати правила сканування».

Вимкніть цей пункт, якщо вам необхідно просканувати сайт без урахування створених раніше правил, не видаляючи їх.

  • «Перехід за посиланнями з відфільтрованих URL» → це налаштування є аналогом тегу . Позначте його, щоб переходити на всі посилання зі сторінок, які відповідають встановленим правилам.

Зверніть увагу: відфільтровані URL потраплять до таблиці пропущених результатів і не відображатимуться на вкладці «Всі результати». 

  • Додати правило → додає нові правила у вікно налаштувань. Також можна створити нову умову за допомогою гарячої клавіші Ctrl+N. Кількість можливих правил не обмежена.
  • Логіка фільтра → для визначення того, як саме працюватимуть правила, необхідно вибрати логіку фільтра:
    • І → поєднує кілька правил: значення "true" повертається тільки в тому випадку, якщо всі умови одночасно повертають значення "true".   
    • АБО →  значення true повертається, якщо хоча б одне з правил віддає значення true.  
  • Скинути правила → видаляє всі введені правила.

Якщо потрібно видалити одне конкретне правило, натисніть на іконку хрестика в правому верхньому кутку його рядка.

2. Створення правил сканування

How to set up crawling rules

Рядок правил містить два меню: для вибору дії та для вибору його умови.

Можливі дії правил:

  • Увімкнути → краулер додаватиме до таблиці URL, які відповідають заданим умовам.

  • Вимкнути → URL, які відповідають заданим умовам, краулер заноситиме їх до таблиці «Пропущені URL».


  • Можливі умови правил:

    • Містить → для обмеження сканування за змістом в URL-адресі текстового значення, прописаного вами, наприклад, за категорією.

    • З точною відповідністю → для пошуку або виключення певного URL зі звіту.

    • Відповідає регулярному виразу → дозволяє увімкнути/виключити URL-адресу, використовуючи регулярні вирази . Наприклад, щоб отримати URL певного рівня вкладеності depth. 

    • Починається з → включає / виключає URL-адреси, які починаються зі значення, заданого в рядку.

    • Закінчується на → включає / виключає URL-адреси, які закінчуються на задане значення.

    • Довжина → для обмеження сканування кількості символів в URL. Тут також задаються знак математичної рівності (=) та знаки порівняння (<, >, ≤, ≥, NULL).

      3. Комбінування умов та налаштувань

      3.1. Ви можете комбінувати запропоновані вище умови між собою та з іншими налаштуваннями необхідним для вас чином. Наприклад, щоб просканувати сторінки піддомену support.netpeaksoftware.com, URL яких містить слово "spider", і розташовані не далі двох кліків від початкового URL.

    • На вкладці «Обмеження» оберіть максимальну глибину сканування: 2
  • Combination of conditions and settings

    3.2. Перейдіть на вкладку «Правила» та налаштуйте такі умови:

    • Включити URL, що починаються з ‘https://support.netpeaksoftware.com/‘.

    • Увімкнути URL-адреси, які містять «spider».

  • Встановіть

Ця стаття була корисною?

Чудово!

Дякуємо за відгук

Даруйте, що не вдалося допомогти вам

Дякуємо за відгук

Розкажіть, як ми можемо поліпшити цю статтю!

Виберіть принаймні одну причину
Необхідна перевірка CAPTCHA.

Відгук надіслано

Дякуємо за допомогу! Ми докладемо всіх зусиль, щоби виправити статтю