- Виды парсинга в Netpeak Spider.
- Применение функции извлечения данных.
- Настройки условий парсинга.
- Отображение условий парсинга на боковой панели.
- Результаты извлечения данных.
Парсинг — это функция, позволяющая находить и извлекать необходимую информацию с веб-ресурса. Функция парсинга в Netpeak Spider позволяет настроить до 100 условий поиска и извлечения любых HTML-данных, например, для проверки внедрения систем аналитики, микроразметки, метатегов для социальных сетей, а также для извлечения объёмных массивов данных (цен, контактов, социальных метрик и других).
1. Виды парсинга в Netpeak Spider
В программе доступны четыре вида парсинга:
- Содержит → поиск и подсчёт количества вхождений искомой фразы на странице.
-
RegExp → извлекает все значения, соответствующие заданному регулярному выражению. Позволяет больше кастомизировать процесс, значительно расширяя возможности поиска, однако требует базовых знаний регулярных выражений.
-
CSS-селектор → извлекает все значения необходимых HTML-элементов на основе заданного CSS-селектора.
- XPath → извлекает все значения необходимых HTML-элементов на основе заданного XPath.
2. Применение функции извлечения данных
Чтобы запустить поиск и извлечение данных, нужно:
- В главном меню перейти в «Настройки» → «Парсинг».
- Отметить пункт «Использовать парсинг HTML-данных» для активации настроек.
- Настроить условия и нажать «OK».
- Запустить сканирование.
3. Настройки условий парсинга
Условия парсинга содержат поля:
Название → необязательное поле, но оно помогает быстро сориентироваться в результатах сканирования по нескольким условиям сбора данных.
Вид поиска → в выпадающем меню предлагает выбрать один из четырёх вариантов: Содержит, RegExp, CSS-селектор или XPath.
Поисковое выражение → выражение, с помощью которого извлекаются данные. Зависит от того, какой вид поиска выбран. В рамках каждого работает валидация, которая быстро покажет, корректно ли заполнено поле.
Область поиска → можно выбрать только для «Содержит» и «RegExp». Если нажать на него, в выпадающем меню появятся два варианта:
- Весь исходный код → поиск искомого выражения на странице, включая все HTML-теги;
- Только текст (исключая HTML-теги) → поиск исключительно по тексту страницы.
Извлечение данных → это поле доступно при задании CSS-селектора или выражения XPath. Может иметь один из четырёх параметров:
- Внутренний текст → извлечение текста внутри указанного элемента, включая внутренний текст всех его дочерних HTML-тегов. Сам HTML-код не извлекается.
- Внутренний HTML-код → извлечение всего содержимого элемента, включая внутренний HTML-код;
- Весь HTML-элемент → извлечение всего содержимого элемента, включая внутренний HTML-код и код самого элемента.
- Значение атрибута → извлечение содержимого указанного атрибута.
Не учитывать регистр → только для поиска «Содержит» и «RegExp». По умолчанию парсер не будет учитывать регистр, что позволяет упростить поиск необходимых фраз.
Обратите внимание, что в программе есть валидация выражений. Если выражение (условие парсинга) подходит под критерии соответствующего синтаксиса, кружок с номером условия подсветится зелёным. В противном случае кружок станет красным, и под полем ввода выражения появится информация об ошибке.
4. Отображение условий парсинга на боковой панели
Настройки для парсинга отображаются в виде параметров на боковой панели во вкладке «Параметры». Если вы не внесли названия, они примут вид самого условия.
5. Результаты извлечения данных
После окончания сканирования в боковом меню на вкладке «Отчёты» → «Парсинг» отобразятся результаты парсинга. Результаты разделены на две категории, в зависимости от наличия искомых значений — «Есть» и «Нет».
Чтобы получить полный отчёт нужно нажать на кнопку «Показать все результаты».
Чтобы увидеть отчёт с выбранное значением, выберите нужную категорию и нажмите на кнопку «Показать выбранные».
Полные отчёты по парсингу можно также увидеть, если перейти в главном меню программы к «Базам данных».
Рекомендуем ознакомиться со статьёй «Как парсить различные данные из интернет-магазина с помощью Netpeak Spider», чтобы понять как необходимо подбирать настройки парсинга.
Статья помогла?
Отлично!
Спасибо за ваш отзыв
Извините, что не удалось помочь!
Спасибо за ваш отзыв
Комментарий отправлен
Мы ценим вашу помощь и постараемся исправить статью