- Настройки учёта инструкций по сканированию и индексации.
- Настройки сканирования ссылок из тега link.
- Автоматическая остановка сканирования.
- Дополнительные настройки.
Продвинутые настройки находятся в главном меню → «Настройки» → «Продвинутые» и необходимы для настройки сканирования, в частности:
- следовать ли инструкциям по индексации;
- учитывать ли ссылки из тега ;
- настроить автоматическую остановку сканирования.
1. Настройка учёта инструкций по сканированию и индексации
Раздел «Учитывать инструкции по сканированию и индексации» — первый и самый важный раздел в продвинутых настройках. Он включает в себя:
-
1.1. robots.txt → отмечайте, чтобы учитывать инструкции из файла robots.txt для выбранного User Agent. Директивы Allow/Disallow отвечают за добавление определённых страниц в таблицу результатов.
По умолчанию User Agent для HTTP запросов — это браузер Google Chrome. Для учёта виртуального robots.txt используется нейтральный бот Netpeak Spider. Сделано это для того, чтобы проверить как работают его директивы для разных ботов, а не только для Google Chrome. - Вы можете протестировать инструкции в robots.txt на этапе разработки сайта с помощью функции «Виртуальный robots.txt» в Netpeak Spider. Она позволяет протестировать новые или обновлённые инструкции в файле robots.txt, не меняя актуальный.
-
1.2. Canonical → отмечайте, чтобы учитывать инструкции Canonical:
- в HTTP-заголовках ответа сервера,
- из тега в блоке ,
- в HTTP заголовке «Link: rel=”canonical”»,
и считать ссылки из этих директив единственными исходящими ссылками со страницы. Настройка по умолчанию включена.
-
1.3. Refresh → отмечайте, чтобы учитывать инструкции Refresh в HTTP-заголовках ответа сервера или тега в блоке и считать ссылки из этой директивы единственными исходящими ссылками со страницы.
-
1.4. X-Robots-Tag → отмечайте, чтобы учитывать инструкции X-Robots-Tag в HTTP-заголовке ответа сервера для выбранного User Agent:
- Follow/nofollow отвечает за учёт ссылок с определённой страницы;
- Index/noindex отвечает за добавление определённой страницы в таблицу результатов.
-
1.5. Meta-Robots → отмечайте, чтобы учитывать инструкции из тега для выбранного User Agent:
- Follow/nofollow отвечает за учёт ссылок с определённой страницы;
- Index/noindex отвечает за добавление определённой страницы в таблицу результатов.
-
1.6. Атрибут «nofollow» у ссылок → отмечайте, чтобы не переходить по ссылкам с атрибутом «nofollow», например, Example.
Когда включена хотя-бы одна инструкция по индексации, программа не будет сканировать закрытые от индексации страницы, но добавит их в таблицу «Пропущенные URL». Однако, Netpeak Spider всегда разделяет результаты на:
- индексируемые страницы,
- неиндексируемые страницы,
- не HTML.
Помните, что роботы поисковых систем в любом случае учитывают инструкции канонизации, robots.txt и Meta Robots, поэтому у сайта могут возникнуть проблемы с индексацией в случае их отсутствия или неверной настройки.
2. Настройки сканирования ссылок из тега link
Для настройки сканирования ссылок из тега используйте следующие параметры:
- Hreflang → Отметьте, чтобы переходить по ссылкам из атрибута hreflang в теге блока или HTTP-заголовке «Link: rel="alternate"» — это необходимо для проверки корректности настройки hreflang. Обратите внимание, Netpeak Spider будет сканировать все URL из hreflang (как внутренние, так и внешние) вне зависимости от настройки «Сканировать внешние ссылки».
- Next/Prev → отмечайте, чтобы переходить по ссылкам из тегов и в блоке .
- AMP HTML → отмечайте, чтобы переходить по ссылкам из тегов в блоке .
- Остальные → отмечайте, чтобы добавлять в таблицу результатов все URL из остальных тегов в блоке . Данная настройка не учитывает директивы rel="stylesheet" (CSS), rel="next/prev" и rel="amphtml", так как они устанавливаются с помощью других настроек.
3. Автоматическая остановка сканирования
В разделе «Автоматически приостанавливать сканирование» можно настроить автоматическую остановку сканирования в случаях:
- Если сайт возвращает код ответа 429 Too Many Requests → сканирование будет приостановлено, если сервер возвращает 429 код ответа. Этот код сигнализирует, что пользователем было отправлено слишком много запросов за короткий промежуток времени. Вы сможете возобновить сканирование в любое время.
- Когда было превышено время ожидания ответа сервера → сканирование будет приостановлено, если время ожидания ответа сервера было превышено. По умолчанию это 30 секунд, но это значение можно изменить на вкладке «Основные» в настройках сканирования. В случае остановки, возобновить сканирование можно вручную.
4. Дополнительные настройки
Дополнительно можно включить такие функции:
- Разрешить cookies → отмечайте, если доступ к сайту закрыт для всех обращений без файлов cookie. Также полезно, чтобы все запросы учитывались в рамках одной сессии, так как при выключенной настройке каждый новый запрос будет создавать новую сессию. Это разрешение активировано по умолчанию.
- Сканировать содержимое страницы с 4xx ошибкой → отмечайте, чтобы получать все выбранные параметры для страниц, которые возвращают 4xx код ответа сервера.
- Сканировать относительные канонические URL → отмечайте, чтобы включить сканирование относительных канонических URL в теге блока или HTTP-заголовке «Link:rel=”canonical”». В этом случае все найденные URL будут добавлены в основную таблицу с результатами.
Если вам необходимо сбросить настройки:
а) воспользуйтесь кнопкой «Восстановить настройки по умолчанию», чтобы восстановить их на текущей вкладке,
б) установите шаблон «По умолчанию», чтобы сбросить все пользовательские настройки на всех вкладках.
Статья помогла?
Отлично!
Спасибо за ваш отзыв
Извините, что не удалось помочь!
Спасибо за ваш отзыв
Комментарий отправлен
Мы ценим вашу помощь и постараемся исправить статью