Налаштування парсингу

Змінено Mon, 09 Oct 2023 о 07:41 PM

1. Види парсингу в Netpeak Spider.
2. Застосування функції вилучення даних.
3. Налаштування умов парсингу.
4. Відображення умов парсингу на бічній панелі.
5. Результати отримання даних.

Парсинг – це функція, яка дозволяє знаходити та витягувати необхідну інформацію з веб-ресурсу. Функція парсингу в Netpeak Spider дозволяє налаштувати до 100 умов пошуку та вилучення будь-яких HTML-даних, наприклад для перевірки впровадження систем аналітики, мікророзмітки, метатегів для соціальних мереж, а також для вилучення об'ємних масивів даних (цін, контактів, соціальних метрик та інших).

1. Види парсингу в Netpeak Spider

У програмі доступні чотири види парсингу:

  • Містить → пошук та підрахунок кількості входжень шуканої фрази на сторінці.


  • RegExp → витягує всі значення, що відповідають заданому регулярному виразу. Дозволяє кастомізувати процес, значно розширюючи можливості пошуку, проте потребує базових знань регулярних виразів.


  • CSS-селектор → витягує всі значення необхідних HTML-елементів на основі заданого CSS-селектора.


  • XPath → витягує всі значення необхідних HTML-елементів на основі заданого XPath.

2. Застосування функції вилучення даних

Щоб запустити пошук та вилучення даних, потрібно:
1. У головному меню перейдіть до «Параметри» → «Парсинг».
2. Позначити пункт «Використовувати парсинг HTML-даних» для активації налаштувань.
3. Налаштувати умови та натиснути «OK».
4. Запустити сканування.

Scraping Settings

3. Налаштування умов парсингу

Умови парсингу містять поля:

Назва → необов'язкове поле, але допомагає швидко зорієнтуватися в результатах сканування за кількома умовами збору даних.


Вигляд пошуку → у меню, що випадає, пропонує вибрати один з чотирьох варіантів: Містить, RegExp, CSS-селектор або XPath.


Пошуковий вираз → вираз, за допомогою якого витягуються дані. Залежить від того, який вид пошуку вибрано. В рамках кожного працює валідація, яка швидко покаже, чи коректно заповнено поле.


Область пошуку → можна вибрати лише для «Містить» та «RegExp». Якщо натиснути на нього, у меню, що випадає, з'являться два варіанти:

  • Весь вихідний код → пошук виразу на сторінці, включаючи всі HTML-теги;
  • Тільки текст (за винятком HTML-тегів) → пошук виключно за текстом сторінки.


Виймання даних → це поле доступне під час завдання CSS-селектора або виразу XPath. Може мати один із чотирьох параметрів:

  • Внутрішній текст → Вилучення тексту всередині зазначеного елемента, включаючи внутрішній текст усіх його дочірніх HTML-тегів. Сам HTML-код не вилучається.
  • Внутрішній HTML-код → вилучення всього вмісту елемента, включаючи внутрішній HTML-код;
  • Весь HTML-елемент → витягти весь вміст елемента, включаючи внутрішній HTML-код і код самого елемента.
  • Значення атрибута → видалення вмісту вказаного атрибута.


Не враховувати регістр → лише для пошуку «Містить» та «RegExp». За замовчуванням парсер не враховуватиме регістр, що дозволяє спростити пошук необхідних фраз.

Зверніть увагу, що у програмі є валідація виразів. Якщо вираз (умова парсингу) підходить під критерії відповідного синтаксису, кружок із номером умови підсвічується зеленим. В іншому випадку він стане червоним, і під полем введення виразу з'явиться інформація про помилку.

Перевірка виразу

4. Відображення умов парсингу на бічній панелі

Параметри парсингу відображаються у вигляді параметрів на бічній панелі у вкладці «Параметри». Якщо ви не внесли назви, вони набудуть вигляду самої умови.

Відображення умов парсингу на бічній панелі

5. Результати вилучення даних

Після закінчення сканування в бічному меню на вкладці  «Звіти» → «Парсинг» з'являться результати парсингу. Результати розділені на дві категорії, залежно від наявності значень, що шукаються, — «Є» і «Ні». Щоб отримати повний звіт, потрібно натиснути на кнопку «Показати всі результати». Щоб побачити звіт із вибраним значенням, виберіть потрібну категорію та натисніть кнопку «Показати вибрані». Повні звіти по парсингу можна також побачити, якщо перейти в головному меню програми до баз даних.


Рекомендуємо ознайомитися зі статтею ‘’ щоб зрозуміти, як необхідно підбирати налаштування парсингу.


Ця стаття була корисною?

Чудово!

Дякуємо за відгук

Даруйте, що не вдалося допомогти вам

Дякуємо за відгук

Розкажіть, як ми можемо поліпшити цю статтю!

Виберіть принаймні одну причину
Необхідна перевірка CAPTCHA.

Відгук надіслано

Дякуємо за допомогу! Ми докладемо всіх зусиль, щоби виправити статтю