URL: додавання, сканування, збереження

Змінено Mon, 09 Oct 2023 о 07:42 PM

1. Як додати URL-адресу для сканування.

2. Обробка URL, що завантажуються.

3. Особливості перебігу сканування. 

4. Зміна початкової URL-адреси в рамках одного проекту.

5. Як пересканувати сторінки.

5.1. Повторне сканування певних URL-адрес.

5.2. Повторне сканування поточної таблиці.

5.3. Повторне сканування битих сторінок.

6. Видалення та очищення URL.

7. Збереження списку URL-адрес у файл.

  1. Як додати URL для сканування

У Netpeak Spider реалізована можливість додавати URL двома способами:

1.1. Ввести адресу в полі «Початковий URL» → сканування почнеться з вказаної URL-адреси та буде продовжуватися, доки не будуть проскановані всі сторінки сайту (якщо область сканування не обмежена в налаштуваннях програми).

Щоб швидше додати початкову URL-адресу, використовуйте підказки. Вони з'являються під рядком, коли ви вводите текст. Підказки створюються на основі ваших попередніх проектів та того, що ви вводили раніше.

Enter in the initial URL

1.2. Додати URL списком → для цього скористайтеся пунктом меню Список URL, гарячими клавішами або панеллю управління:   

Add a list of URLs

1.3. Ввести вручну (Ctrl+D) → відкриває додаткове вікно для введення списку сторінок, де кожна URL має бути з нового рядка. Після введення всіх URL-адрес натисніть «Додати». 

Enter by yourself

1.4. Завантажити з файлу (Alt+O) → імпортує URL-адресу з файлу, який може мати такі розширення:

  • .txt (Text file)
  • .xlsx (Microsoft Excel)
  • .csv (Comma-separated values)
  • .xml (XML файл)
  • .nspj (проект Netpeak Spider)
  • .ncpj (проект Netpeak Checker)

Також можна завантажити список URL із файлу, натиснувши «Додати URL» на панелі керування.

1.5. Завантажити з Sitemap → відкриває інструмент «Валідатор XML Sitemap» (Alt+X), за допомогою якого можна отримати список URL з карти сайту для сканування. Для цього необхідно:

  1. Ввести URL-карти сайту у відповідне поле;
  2. Вибрати режим перегляду "URL (Вміст Sitemap)";
  3. Натиснути "Старт";
  4. Перенести список URL до основної таблиці;
  5. У головному вікні програми, запустити сканування натисканням на "Старт".

Download from Sitemap

1.6. Drag and Drop → перетягніть URL-адресу або файл з вищезгаданими розширеннями безпосередньо в основну таблицю: Netpeak Spider проаналізує файли та завантажить необхідні дані.

1.7. Вставити із буфера обміну → комбінацією клавіш Ctrl+V або за допомогою пункту «Список URL» у головному меню.

2. Обробка завантажуваних URL

  • Netpeak Spider сканує сторінки лише на протоколі http/https.
  • Якщо в посиланні не вказано протокол, програма автоматично додасть безпечний https-протокол на початок URL-адреси.
  • Основна панель програми може містити лише унікальні URL-адреси.
  • URL будуть декодовані (приведені до зрозумілого для користувача вигляду, наприклад, з використанням пробілів та кирилиці).
  • Якорі у хеш-посиланнях будуть видалені: замість https://example.com/test/#anchor Netpeak Spider додасть https://example.com/test для сканування.

Отже, при додаванні списку URL Netpeak Spider наводить посилання в декодований вигляд, прибирає якір і видаляє дублікати, через що початковий порядок URL може змінитися.

3. Особливості ходу сканування

Хочемо відзначити, що в залежності від способу додавання URL, хід сканування буде відрізнятися:

  • При введеній початковій URL-адресі та порожній таблиці запуститься сканування всього сайту, починаючи з введеної сторінки. Краулер буде переходити за посиланнями, знайденими на цих сторінках, доки буде знаходити нові та унікальні URL-адреси.
  • За наявності URL і в полі «Початковий URL», і в таблиці результатів Netpeak Spider почне сканування із заданої сторінки й додаватиме нові URL до попередніх результатів у таблиці.
  • За відсутності початкової URL-адреси та наявності сторінок в основній таблиці будуть проскановані тільки введені URL-адреси.  

4. Зміна початкової URL-адреси в рамках одного проекту

У Netpeak Spider реалізована можливість змінювати початковий URL, а також додавати список URL протягом сканування одного проекту. Це зручно за необхідності:

  1. Просканувати кілька сайтів у рамках одного проекту, наприклад, для перевірки дублюючого контенту або їх перелінкування між собою. Для цього:
    1. Після закінчення сканування замініть адресу сторінки в полі «Початкова URL» або додайте список URL, який вас цікавить, до таблиці результатів.
    2. Натисніть "Старт". 
  2. Просканувати певні розділи сайту в одному проекті, обмежуючи кожен з них у налаштуваннях програми. Для цього:
    1. Перед початком встановіть сканування лише всередині розділу на вкладці «Основні».
    2. Введіть початкову URL-адресу та натисніть «Старт».
    3. Після закінчення замініть початкову URL-адресу та відновіть сканування.

5. Як пересканувати сторінки

У Netpeak Spider можна пересканувати частину результатів, наприклад, після внесення змін на сайті.

5.1. Повторне сканування певних URL

Щоб пересканувати одну або кілька необхідних сторінок, виберіть їх у таблиці результатів і в контекстному меню натисніть «Пересканувати URL» → Netpeak Spider оновить дані про параметри та зв'язки по всіх вибраних сторінках.

Rrecrawling certain pages

5.2. Повторне сканування поточної таблиці

Також можна пересканувати поточну таблицю, наприклад, після застосування фільтра. Для цього:

  1. Збережіть проект для збереження оперативної пам'яті та можливості повернутися до нього в майбутньому.

  2. На бічній панелі "Помилки" виберіть помилку, за якою хочете відфільтрувати результати (наприклад, "Відсутній або порожній Title").

  3. Клацніть правою кнопкою миші на будь-яку комірку в таблиці «Відфільтровані результати» та виберіть «Поточна таблиця» → «Пересканувати таблицю». Також можна скористатися гарячими клавішами Ctrl+Shift+R.


Recrawling a table of results

5.3. Повторне сканування всіх результатів

Можна пересканувати й всі отримані URL (наприклад, після переїзду сайту на HTTPS-протокол): очистіть поле «Початковий URL» і натисніть кнопку «Рестарт» → Netpeak Spider перевіряє лише ті сторінки, які вже були додані в таблицю результатів.

Recrawling all results

5.4. Повторне сканування битих сторінок

Якщо ви прибрали посилання на биті сторінки на вашому сайті, то щоб програма повністю відобразила зміни, необхідно пересканувати сайт повністю.

У випадку, коли ви не видаляли посилань, а зробили сторінки доступними за тією ж URL-адресою, то щоб побачити зміни, вам достатньо пересканувати таблицю «Биті сторінки» описаним у пункті 4.2 способом.

6. Видалення та очищення URL

Видалити URL з таблиці результатів так само легко, як і вставити: 

  1. Виділіть потрібні URL-адреси.
  2. Натисніть Shift+Delete або виберіть «Видалити URL» у контекстному меню.
  3. Після цього відбудеться автоматичне оновлення таблиці результатів.

Враховуйте, що після видалення URL з основної таблиці він залишиться у звітах «Вихідні посилання» на сторінках, які посилаються на нього.

Також ви можете очистити отримані дані за вибраними URL-адресами, не видаляючи сторінки з таблиці результатів, наприклад, щоб пересканувати вже отримані сторінки після змін у налаштуваннях програми або на сайті. Для цього:

  1. Виділіть потрібні URL-адреси.
  2. Натисніть Delete  або оберіть «Очистити» у контекстному меню.

7. Збереження списку URL у файл

Ви можете зберігати список відсканованих URL-адрес, а також URL-адрес у черзі без даних по них у текстовому форматі на своєму пристрої.

1. Відкрийте потрібну таблицю.

2. Натисніть «Список URL» → «Зберегти список URL у файл» або скористайтеся комбінацією Alt+S, перебуваючи у головному вікні програми.   

Save a list of urls to file

3. Виберіть папку для збереження та визначте ім'я файлу (або залиште автоматично згенероване).

Для того, щоб зберегти список URL у черзі:

  1. Встановіть сканування на паузу.
  2. Клацніть на «Експорт» → «Посилання у черзі».
  3. Виберіть папку для збереження файлу та введіть ім'я (або залиште автоматично згенероване).

Pending URLs

Ця стаття була корисною?

Чудово!

Дякуємо за відгук

Даруйте, що не вдалося допомогти вам

Дякуємо за відгук

Розкажіть, як ми можемо поліпшити цю статтю!

Виберіть принаймні одну причину
Необхідна перевірка CAPTCHA.

Відгук надіслано

Дякуємо за допомогу! Ми докладемо всіх зусиль, щоби виправити статтю