Продвинутые настройки

Изменено Пн, 9 Окт, 2023 на 7:41 PM

Настройки учёта инструкций по сканированию и индексации.
Настройки сканирования ссылок из тега link.
Автоматическая остановка сканирования.
Дополнительные настройки.

Продвинутые настройки находятся в главном меню → «Настройки» → «Продвинутые» и необходимы для настройки сканирования, в частности:

следовать ли инструкциям по индексации;
учитывать ли ссылки из тега ;
настроить автоматическую остановку сканирования.

1. Настройка учёта инструкций по сканированию и индексации

Раздел «Учитывать инструкции по сканированию и индексации» — первый и самый важный раздел в продвинутых настройках. Он включает в себя:

1.1. robots.txt → отмечайте, чтобы учитывать инструкции из файла robots.txt для выбранного User Agent. Директивы Allow/Disallow отвечают за добавление определённых страниц в таблицу результатов.
По умолчанию User Agent для HTTP запросов — это браузер Google Chrome. Для учёта виртуального robots.txt используется нейтральный бот Netpeak Spider. Сделано это для того, чтобы проверить как работают его директивы для разных ботов, а не только для Google Chrome.
Вы можете протестировать инструкции в robots.txt на этапе разработки сайта с помощью функции «Виртуальный robots.txt» в Netpeak Spider. Она позволяет протестировать новые или обновлённые инструкции в файле robots.txt, не меняя актуальный.
1.2. Canonical → отмечайте, чтобы учитывать инструкции Canonical:
- в HTTP-заголовках ответа сервера,
- из тега в блоке ,
- в HTTP заголовке «Link: rel=”canonical”»,

и считать ссылки из этих директив единственными исходящими ссылками со страницы. Настройка по умолчанию включена.

1.3. Refresh → отмечайте, чтобы учитывать инструкции Refresh в HTTP-заголовках ответа сервера или тега в блоке и считать ссылки из этой директивы единственными исходящими ссылками со страницы.
1.4. X-Robots-Tag → отмечайте, чтобы учитывать инструкции X-Robots-Tag в HTTP-заголовке ответа сервера для выбранного User Agent:
Follow/nofollow отвечает за учёт ссылок с определённой страницы;
Index/noindex отвечает за добавление определённой страницы в таблицу результатов.
1.5. Meta-Robots → отмечайте, чтобы учитывать инструкции из тега для выбранного User Agent:
Follow/nofollow отвечает за учёт ссылок с определённой страницы;
Index/noindex отвечает за добавление определённой страницы в таблицу результатов.
1.6. Атрибут «nofollow» у ссылок → отмечайте, чтобы не переходить по ссылкам с атрибутом «nofollow», например, Example.

Когда включена хотя-бы одна инструкция по индексации, программа не будет сканировать закрытые от индексации страницы, но добавит их в таблицу «Пропущенные URL». Однако, Netpeak Spider всегда разделяет результаты на:

индексируемые страницы,
неиндексируемые страницы,
не HTML.

Помните, что роботы поисковых систем в любом случае учитывают инструкции канонизации, robots.txt и Meta Robots, поэтому у сайта могут возникнуть проблемы с индексацией в случае их отсутствия или неверной настройки.

2. Настройки сканирования ссылок из тега link

Для настройки сканирования ссылок из тега используйте следующие параметры:

Hreflang → Отметьте, чтобы переходить по ссылкам из атрибута hreflang в теге блока или HTTP-заголовке «Link: rel="alternate"» — это необходимо для проверки корректности настройки hreflang. Обратите внимание, Netpeak Spider будет сканировать все URL из hreflang (как внутренние, так и внешние) вне зависимости от настройки «Сканировать внешние ссылки».
Next/Prev → отмечайте, чтобы переходить по ссылкам из тегов и в блоке .
AMP HTML → отмечайте, чтобы переходить по ссылкам из тегов в блоке .
Остальные → отмечайте, чтобы добавлять в таблицу результатов все URL из остальных тегов в блоке . Данная настройка не учитывает директивы rel="stylesheet" (CSS), rel="next/prev" и rel="amphtml", так как они устанавливаются с помощью других настроек.

3. Автоматическая остановка сканирования

В разделе «Автоматически приостанавливать сканирование» можно настроить автоматическую остановку сканирования в случаях:

Если сайт возвращает код ответа 429 Too Many Requests → сканирование будет приостановлено, если сервер возвращает 429 код ответа. Этот код сигнализирует, что пользователем было отправлено слишком много запросов за короткий промежуток времени. Вы сможете возобновить сканирование в любое время.
Когда было превышено время ожидания ответа сервера → сканирование будет приостановлено, если время ожидания ответа сервера было превышено. По умолчанию это 30 секунд, но это значение можно изменить на вкладке «Основные» в настройках сканирования. В случае остановки, возобновить сканирование можно вручную.

4. Дополнительные настройки

Дополнительно можно включить такие функции:

Разрешить cookies → отмечайте, если доступ к сайту закрыт для всех обращений без файлов cookie. Также полезно, чтобы все запросы учитывались в рамках одной сессии, так как при выключенной настройке каждый новый запрос будет создавать новую сессию. Это разрешение активировано по умолчанию.
Сканировать содержимое страницы с 4xx ошибкой → отмечайте, чтобы получать все выбранные параметры для страниц, которые возвращают 4xx код ответа сервера.
Сканировать относительные канонические URL → отмечайте, чтобы включить сканирование относительных канонических URL в теге блока или HTTP-заголовке «Link:rel=”canonical”». В этом случае все найденные URL будут добавлены в основную таблицу с результатами.

Если вам необходимо сбросить настройки:

а) воспользуйтесь кнопкой «Восстановить настройки по умолчанию», чтобы восстановить их на текущей вкладке,

б) установите шаблон «По умолчанию», чтобы сбросить все пользовательские настройки на всех вкладках.