Валидатор XML Sitemap

Изменено Чт, 2 Ноя, 2023 на 11:55 AM

  1. Как открыть инструмент и приступить к работе с ним.
  2. Функции инструмента.
  3. Ошибки, определяемые инструментом «Валидатор XML Sitemap».

Валидатор XML Sitemap — встроенный в программу инструмент, который помогает решить следующие задачи: 

  • Находить ошибки в карте сайта.
  • Парсить ссылки с XML Sitemap с возможностью передачи их в основную таблицу для дальнейшего сканирования и работы с ними.
  • Отправить ping в поисковые системы, чтобы обратить их внимание на изменения в файлах XML Sitemap.

Проверка карты сайта может осуществляться вне сканирования самого сайта.

1. Как открыть инструмент и приступить к работе с ним

Открывается инструмент тремя способами: 

  • Через панель управления в меню «Инструменты/Запустить» → «Валидатор XML Sitemap»;

Запустить валидатор XML

  • Воспользоваться горячими клавишами Alt+X;
  • В главном меню выбрать «Список URL» → «Загрузить из Sitemap».

Загрузить sitemap

Чтобы приступить к поиску ошибок:

1. Введите URL карты сайта в поле с соответствующим названием и нажмите кнопку «Старт». По завершению сканирования в основной таблице отобразится список страниц, которые содержатся в карте сайта. В инструменте встроено два режима просмотра:

  • URL (Содержимое Sitemap) → отображает все страницы, которые содержатся в карте сайта;
  • Карты сайта → отображает файлы с расширением .xml.


2. В колонках таблицы просмотрите данные о наличии и отсутствии атрибутов отдельно для каждого URL. Атрибуты и их значения:

  • Loc → URL-адрес страницы; 
  • Lastmod → дата последнего изменения файла;
  • Changefreq → вероятная частота изменения этой страницы; 
  • Priority → приоритетность URL относительно других URL на сайте.


3. Ознакомиться с найденными ошибками в карте сайта вы можете на соответствующей вкладке правой части окна инструмента. Ошибки, представленные в этом отчёте, определяются на основе официальной документации Standart Sitemap Protocol, которая поддерживается поисковыми системами Google и Bing.

4. Кликните по названию ошибки, чтобы отфильтровать результаты и ознакомиться со списком страниц, на которых она была найдена. Также при клике в нижнем блоке «Информация» отображается объяснение каждой ошибки и её целевой параметр.

поиск ошибок sitemap

5. Чтобы задать индивидуальные (кастомные) настройки фильтров, сбросьте применённый фильтр и кликните на кнопку «Настроить фильтр». Перед вами откроется окно, где вы можете задать условия фильтрации. 

2. Функции инструмента

По аналогии с работой в боковой вкладке программы, в инструменте «Валидатор XML Sitemap» доступны функции:

  • Применить → применяет текущий фильтр и обновляет данные в таблице.
  • Расширенное копирование → копирует данные из любой выбранной категории в буфер обмена, после чего их можно вставить во внешнюю таблицу.

При необходимости вы можете отправить карту сайта в ping поисковых систем Google и Bing, т.е. оповестить их о добавлении нового материала на сайте.

Экспорт sitemap

Выгрузка результатов осуществляется с помощью:

  • Функции «Экспорт» → выгружает текущую таблицу со всеми результатами; 
  • Кнопки «Сохранить URL в файл» → сохраняет список просканированных URL карты сайта в текстовый документ;


С помощью кнопок «В таблицу» и «Перенести URL и закрыть» вы можете добавить результаты, полученные в ходе анализа Sitemap, в основную таблицу. 

Перенести URL из sitemap и закрыть

После окончания работы удалите результаты удобным для вас способом:

  • Нажатием кнопку «Новая карта сайта».
  • Функцией «Очистить» в главном меню окна инструмента.


новая карта сайта


Если исправление ошибок займёт слишком много времени, вы можете создать новую карту сайта. Мануал по созданию карты сайта вы найдёте в статье «Генерация карты сайта».

3. Ошибки, определяемые инструментом «Валидатор XML Sitemap» 

Ошибка

Описание

Высокая критичность

Битый Sitemap

Показывает недоступные карты сайта или возвращающие код ответа сервера 4xx и выше: по ним не удаётся получить результаты.


Целевой параметр: Код ответа сервера

Невалидный корневой тег Sitemap

Показывает карты сайта с неправильным корневым тегом: по требованиям он должен быть или .


Целевой параметр: URL

Ошибка парсинга XML-документа

Показывает XML-документы, которые не удалось распарсить.


Целевой параметр: URL

Невалидный Content-Type

Показывает карты сайта в файле индекса Sitemap, у которых в заголовках HTTP-ответа сервера поле Content-Type не содержит «text/xml», «application/xml» или «text/plain». В случае сжатия файлов Sitemap с помощью gzip поле Content-Type должно содержать «application/gzip».


Целевой параметр: Content-Type

Ошибка сжатия

Показывает карты сайта, которые были повреждены при архивации или заархивированы не с помощью gzip.


Целевой параметр: Код ответа сервера

Кодировка не UTF-8

Показывает карты сайта, кодировка которых отличается от UTF-8.


Целевой параметр: Кодировка

Sitemap, заблокированный в robots.txt 

Показывает карты сайта, запрещённые к индексации с помощью инструкции disallow в файле robots.txt.


Целевой параметр: Закрыт от индексации

Макс. размер файла Sitemap

Показывает карты сайта, размер которых превышает 49,9 Мбайт.


Целевой параметр: Размер файла

Макс. количество ссылок в файле индекса Sitemap

Показывает файлы индекса Sitemap, которые содержат более 49 999 ссылок на карты сайта.


Целевой параметр: Количество URL

Макс. количество URL в Sitemap

Показывает карты сайта, которые содержат более 49 999 URL.


Целевой параметр: Количество URL

Не найдены ссылки в Sitemap

Показывает карты сайта, в которых не было найдено ни одной ссылки. Это может произойти, если файл Sitemap пустой, или его содержимое было исключено на вкладке «Правила» в настройках сканирования.


Целевой параметр: Количество URL

Неправильный формат Sitemap URL

Показывает URL внутри файла индекса Sitemap, которые не соответствуют стандартному маскированию схема:[//[логин:пароль@]хост[:порт]][/]путь[?параметры][#якорь].


Целевой параметр: Loc

Неправильный формат URL

Показывает адреса страниц, которые не соответствуют стандартной структуре URL: схема:[//логин:пароль@]хост:[порт]][/]путь[?параметры][#якорь]


Целевой параметр: Loc

Макс. длина Sitemap URL

Показывает карты сайта, у которых длина URL более 2000 символов (по умолчанию). Обратите внимание, что вы можете поменять значение по умолчанию на вкладке «Ограничения» в настройках сканирования.


Целевой параметр: URL

Макс. длина URL

Показывает страницы, у которых длина URL более 2000 символов (по умолчанию). Обратите внимание, что вы можете поменять значение по умолчанию на вкладке «Ограничения» в настройках сканирования.


Целевой параметр: URL

Кодированные Sitemap URL

Показывает карты сайта, которые содержат кодированные (не ASCII) символы в URL. Например, URL вида example.com/пример кодируется как example.com/%D1%85%D0%BE%D0%B9


Целевой параметр: URL

Некодированные URL внутри Sitemap

Показывает URL, которые содержат некодированные (не ASCII) символы в URL. Например, URL вида example.com/пример, который должен кодироваться, как example.com/%D1%85%D0%BE%D0%B9.


Целевой параметр: Loc

 Спецсимволы в URL

Показывает список URL, которые содержат символы «*», «{», «}»


Целевой параметр: URL

Дубликаты Sitemap

Показывает дублирующиеся карты сайта, если они были обнаружены в одном или нескольких файлах индекса Sitemap.


Целевой параметр: URL

Ссылка на файл индекса Sitemap 

Показывает карты сайта, которые содержат ссылку на файл индекса Sitemap.


Целевой параметр: Источник ссылки

Средняя критичность

Перенаправленный Sitemap

Показывает карты сайта, которые были перенаправлены с помощью 3xx кода ответа сервера. Обратите внимание: в отличие от основной таблицы, здесь показываются конечные URL.


Целевой параметр: Код ответа сервера

Неверное местоположение Sitemap

Показывает карты сайта, которые нарушают требования по местоположению из документации Standard Sitemap Protocol. Карта должна размещаться на том же хосте и с тем же протоколом, что и её содержимое.


Целевой параметр: URL

Неверное местоположение URL

Показывает список URL, которые нарушают требования по местоположению из документации Standard Sitemap Protocol. URL внутри карты сайта должны размещаться на том же хосте и с тем же протоколом, что и сама карта сайта.


Целевой параметр: URL

Невалидный URL Priority

Показывает список URL с неправильным форматом тега .


Целевой параметр: Priority

Priority вне диапазона 

Показывает список URL с тегом вне допустимого диапазона (от 0.0 до 1.0).


Целевой параметр: Priority

Невалидный URL Changefreq

Показывает список URL с неправильным форматом тега .


Целевой параметр: Changefreq

Невалидный URL Lastmod

Показывает список URL с неправильным форматом даты .


Целевой параметр: Lastmod

Невалидный Sitemap Lastmod

Показывает карты сайта с неправильным форматом даты .


Целевой параметр: Lastmod

Большое время ответа сервера

Показывает страницы, у которых время получения первого байта от сервера превышает 500 мс (по умолчанию). Обратите внимание, что вы можете поменять значение по умолчанию на вкладке «Ограничения» в настройках сканирования.


Целевой параметр: Время ответа сервера

Sitemap Index отсутствует в robots.txt


Показывает файлы индекса Sitemap, ссылки на которые не были найдены в соответствующих файлах robots.txt.


Целевой параметр: Указан в robots.txt

Дубликаты URL

Показывает дубликаты URL, найденные на всех Sitemap. В этом отчёте все данные сгруппированы по параметру «URL».


Целевой параметр: URL

Содержит Byte-Order Mark

Показывает карты сайта, которые содержат Byte-Order Mark (BOM, метка последовательности байтов) — Юникод-символ, используемый для индикации порядка байтов текстового файла. Он вызывает проблемы со сканированием Sitemap, потому настоятельно рекомендуется его избегать.


Целевой параметр: Кодировка

Низкая критичность

Кодированные URL

Показывает страницы, которые содержат кодированные (не ASCII) символы в URL. Например, URL вида example.com/пример кодируется как example.com/%D1%85%D0%BE%D0%B9.


Целевой параметр: URL

Sitemap отсутствует в robots.txt

Показывает файлы Sitemap, ссылки на которые не были найдены в соответствующих файлах robots.txt.


Целевой параметр: Указан в robots.txt

Статья помогла?

Отлично!

Спасибо за ваш отзыв

Извините, что не удалось помочь!

Спасибо за ваш отзыв

Расскажите, как мы можем улучшить эту статью!

Выберите хотя бы одну причину
Требуется проверка CAPTCHA.

Комментарий отправлен

Мы ценим вашу помощь и постараемся исправить статью