Кастомні HTTP-заголовки

Змінено вт., 9 Лип. на 4:24 ПІСЛЯ ПОЛУДНЯ


У Netpeak Spider 3.6 з'явилася можливість вказувати користувацькі HTTP-заголовки для більш гнучкого налаштування програми та виконання ширшого спектра завдань.

1. Навіщо потрібна ця функція

1.1. Сканування сайтів, закритих авторизацією

Кастомні заголовки HTTP дозволять спарсити сайт, контент якого доступний після проходження авторизації.

1.2. Обхід захисту сайту

Ця функція буде корисною, якщо на сайті є захист від краулінгу (парсингу). Завдяки настроюванню заголовків при зверненні сервер вважатиме запит користувацьким, а не автоматичним.

1.3. Отримання динамічних версій сторінок

Функція стане в пригоді, коли потрібно спарсити сайт, що віддає різні модифікації вихідного коду в залежності від параметрів, що передаються в заголовках HTTP. Наприклад, ідентифікатор пристрою, клієнта, регіону, мовної версії, роздільна здатність екрана.

Важливо:

Поставтеся до цієї функції з усією серйозністю. Якщо не розумієте принцип роботи функції, не використовуйте її. Коли ви відправите краулер сканувати сайт в обхід авторизації, йому будуть доступні кнопки (посилання), які недоступні для простого користувача. Наприклад, посилання, які видаляють сторінки. Таким чином, ви можете знищити сайт.


2. Як налаштувати HTTP-заголовки

Внести заголовки користувача можна на вкладці «HTTP-заголовки».

2.1. Поля "User-Agent", "Accept", "Accept-Encoding" є вбудованими, їх не можна змінити або видалити. У разі створення іншого заголовка з аналогічною назвою програма проігнорує його, щоб уникнути появи помилок.

Зверніть увагу: User Agent налаштовується на вкладці «User Agent».


2.2. Кнопка «Додати заголовок» виводить новий рядок з полями «Назва», «Значення» та кнопкою «Видалити». У рядку ви можете самостійно задати значення та назву заголовка, а також додати необмежену кількість заголовків.

Add header


2.3. Кнопка "Скинути все" видаляє всі заголовки, крім перших трьох. Кнопка «Відновити стандартні налаштування» очищає всі додані заголовки, відновлюючи стандартний набір заголовків.

Clear all


2.4. Ви можете зберегти набір заголовків як шаблон, натиснувши кнопку з відповідною назвою.

Templates


Зверніть увагу:

  • Якщо чек-бокс "Дозволити cookies" на вкладці "Просунуті" не включений, програма НЕ надсилає файли cookie. Якщо чек-бокс відзначений, програма відправляє задані в налаштуваннях cookie і коректно обробляє cookie, які отримала від сервера.
  • Щоб кастомні заголовки HTTP враховувалися під час сканування, в полі «Початковий URL» додайте URL сайту.
  • Заголовок Authorization на вкладці «Аутентифікація», який використовується для отримання доступу до сайту, закритого базовою аутентифікацією, буде проігнорований, якщо використовується такий же заголовок на вкладці «HTTP-заголовки».
  • Деякі заголовки не можна поєднувати через кому, наприклад, Authorization або Referer. У разі додавання даних значень до одного заголовка, у запиті буде передано лише останнє вказане значення. 
  • Netpeak Spider обробляє лише перші 20 файлів cookie. Видаліть непотрібні куки, якщо не потрапили в перші 20.

3. Приклади використання

3.1. Перевірка змін на сайті за допомогою If-Modified-Since

1. На вкладці «HTTP-заголовки» прописуємо новий заголовок за схемою: – If-Modified-Since: , :: GMT.

Приклад заголовка: If-Modified-Since: Wed, 1 Jan 2020 07:28:00 GMT 

2. Встановлюємо агента, за допомогою якого ми надсилатимемо запити до сервера, де розташований сайт, на вкладці налаштувань «User Agent».

3. У поле «Початковий URL» вставляємо URL сайту та натискаємо «Старт».

Навіщо це необхідно?

Якщо під час сканування сторінка віддала код відповіді сервера 200, це означає, що вона піддавалася змінам у проміжок часу, вказаному в заголовку If-Modified-Since. Якщо сервер повернув для сторінки 304 код відповіді, вона не змінювалася. 

3.2. Перевірка контенту, адаптованого для різних регіонів

Ви можете встановити будь-яке значення мови та регіону, починаючи з заголовків Accept-Language, Cookie, Referer і закінчуючи будь-яким заголовком з унікальним ім'ям. Це дозволить проаналізувати контент сторінок, адаптований до різних регіонів.

Ця стаття була корисною?

Чудово!

Дякуємо за відгук

Даруйте, що не вдалося допомогти вам

Дякуємо за відгук

Розкажіть, як ми можемо поліпшити цю статтю!

Виберіть принаймні одну причину
Необхідна перевірка CAPTCHA.

Відгук надіслано

Дякуємо за допомогу! Ми докладемо всіх зусиль, щоби виправити статтю