Sitemap.xml

Материалы подготовлены:

Google, Яндекс

Файл Sitemap — это файл с информацией о страницах сайта, подлежащих индексированию. Разместив файл Sitemap на сайте, вы можете:

  • сообщить поисковой системе, какие страницы вашего сайта нужно индексировать;
  • как часто обновляется информация на страницах;
  • индексирование каких страниц наиболее важно.

Файлы Sitemap учитываются при обходе сайта, однако не гарантируетсям, что все URL из файла Sitemap будут добавлены в поисковый индекс.

Sitemap.xml влияет на:

  • ускорение индексации сайта
  • полноту индексации сайта

Sitemap.xml указывает поисковой системе частоту, с которой возникает необходимость в переиндексации страниц. В этом плане инструкция особенно важна для сайтов с регулярно обновляющимся контентом (новостные порталы и т. п.).

Кроме того, sitemap.xml содержит все важные страницы сайта с указанием их приоритета.

Важно!

Карту сайта можно занести на сайт клиента самостоятельно, в xml-формате в NOTEPAD++.Разместить файл следует в корневую директиву сайта (http://<адрес сайта>/sitemap.xml).

Ответы на многие вопросы по созданию файла Sitemap вы можете найти на официальном сайте.

Требования к файлу Sitemap

Основные требования к файлу:

  • Файл Sitemap должен располагаться на том же домене, что и сайт, для которого он составлен.
  • При обращении к файлу сервер должен возвращать HTTP-статус 200 OK.
  • Файл может содержать не более 50 000 URL, а его размер в несжатом виде не должен превышать 10 Мб. Если ваш Sitemap не удовлетворяет этим требованиям, разбейте его на несколько отдельных файлов и укажите их в файле индекса Sitemap.
  • Файл sitemap.xml может быть разбит на несколько отдельных файлов, каждый из которых должен быть указан в robots.txt.
  • В файле необходимо использовать кодировку UTF-8. При этом нет необходимости использовать Punycode для кириллических URL — робот Яндекса распознает их как в закодированном виде, так и в оригинале.
  • Sitemap может описывать только страницы того домена, на котором он расположен. Страницы поддоменов или других доменов описывать нельзя.
  • Файл sitemap.xml, расположенный в некотором каталоге, должен включать только URL, находящиеся в этом же каталоге либо его вложенных разделах. Нельзя, чтобы он включал в себя адреса из другого (из данного и не вложенного в данный) каталога сайта. То есть в sitemap.xml, расположенном по адресу http://www.site.ru/dir_1/, будут учитываться только инструкции для вложенных в эту категорию страниц. Инструкции, касающиеся страниц, вложенных, например, в категорию http://www.site.ru/dir_2/, будут проигнорированы.
  • Файлы Sitemap должны использовать кодировку UTF-8, а в URL необходимо применять маскирование элементов.

Принцип взаимодействия sitemap.xml и robots.txt:

Инструкции sitemap.xml и robots.txt при правильном их использовании должны дополнять друг друга. Существуют три правила взаимодействия этих инструкций

  • sitemap.xml и robots.txt не должны противоречить друг другу
  • все страницы, исключенные в robots.txt, должны быть исключены также из sitemap.xml
  • все индексируемые страницы, разре- шенные в robots.txt, должны содержаться в sitemap.xml

Сформированный файл sitemap.xml нужно отправить в Google и Яндекс.

Корректность настройки карты сайта (http://sitename/sitemap.xml)

  • Добавьте в файл Sitemap следующее пространство имен XML: xmlns= http://www.sitemaps.org/schemas/sitemap/0.9.
  • Используйте один и тот же синтаксис при указании URL. Например, если адрес главной страницы выглядит как http://www.example.com/, то в файле Sitemap не должно быть URL, начинающихся сhttp://example.com/.

Обязательные атрибуты

<urlset>

Атрибут инкапсулирует этот файл и указывает стандарт текущего протокола.

</urlset>


<url>

Это родительский тег для каждой записи URL. Остальные теги являются для него дочерними.

</url>

<loc>

Представляет URL-адрес страницы. Этот URL должен начинаться с префикса (на- пример, HTTP) и заканчиваться косой чертой, если ваш веб-сервер требует это- го. Длина этого значения не должна пре- вышать 2 048 символов.

</loc>


Пример

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
   <loc>http://www.example.com/foo.html</loc>
 </url>
</urlset>

Необязательные атрибуты

<lastmod>

Здесь в формате W3C Datetime указывается дата последнего изменения файла. W3C Datetime позволяет при необходимости опустить сегмент времени и использовать формат ГГГГ-ММ-ДД. Обратите внимание: этот тег не имеет отношения к заголовку ‘If-Modified-Since (304)’, который может вернуть сервер, поэтому поисковые системы иногда по-разному используют информацию из этих двух источников.

</lastmod>



<changefreq>

Атрибут задает вероятную частоту изменения страницы. Это значение предоставляет общую информацию для поисковых систем и может не соответствовать в точности частоте сканирования этой страницы.

Допустимые значения:

always, hourly, daily, weekly, monthly, yearly, never

Значение «всегда» (always) должно использоваться для описания документов, которые изменяются при каждом доступе к ним, значение «никогда» (never) – для описания архивных URL-адресов.

Имейте в виду, что значение для этого тега рассматривается как подсказка, а не как команда. Несмотря на то, что сканеры поисковой системы учитывают эту информацию при принятии решений, они могут сканировать страницы с пометкой «ежечасно» менее часто, чем указано, а страницы с пометкой «ежегодно» – чаще одного раза в год. Бывает, что поисковые роботы сканируют страницы с пометкой «никогда», чтобы отслеживать неожиданные изменения на этих страницах.

<changefreq>


<priority>

Указывается приоритетность данного URL относительно других URL на вашем сайте. Допустимый диапазон значений – от 0,0 до 1,0; по умолчанию приоритетность равна 0,5.

Значение <priority> не влияет на процедуру сравнения ваших страниц со страницами других сайтов, оно только позволяет указать поисковым системам, какие страницы более важны для сканеров, на ваш взгляд. Таким образом, вы не сможете повлиять на положение ваших URL на страницах результатов какой-либо поисковой системы. Однако поисковые системы используют эту информацию при обработке URL, которые относятся к одному и тому же сайту. Поэтому можно использовать этот тег для увеличения вероятности присутствия в поисковом индексе самых важных страниц вашего сайта.

Вы должны понимать, что нет смысла назначать высокий приоритет всем URL вашего сайта. Это очень относительная величина, поэтому параметр используется лишь для того, чтобы определить очередность обработки URL в пределах одного сайта.

</priority>


Пример Sitemap.xml.


После того, как файл будет сформирован в robots.txt нужно добавить следующую строку:

Sitemap: http://example.com/mestopolozhenie_sitemap.xml



Расширения файлов Sitemap (видео, изображения, новости и т. д.)

Наряду с основной информацией об URL файлы Sitemap могут содержать подробные сведения о некоторых типах контента на вашем сайте, в том числе видео, изображения, страницы для мобильных устройств и новости. В зависимости от типа контента следует указывать в файле соответствующие пространства имен, перечисленные в таблице ниже.

Общие URL

xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

Изображения xmlns:image="http://www.google.com/schemas/sitemap-image/1.1"
Видео xmlns:video="http://www.google.com/schemas/sitemap-video/1.1"
Мобильные устройства xmlns:mobile="http://www.google.com/schemas/sitemap-mobile/1.0"
Новости xmlns:news="http://www.google.com/schemas/sitemap-news/0.9". Google рекомендует создавать отдельные файлы Sitemap для новостей. Сканирование этих файлов будет выполняться намного чаще, что обеспечит оперативное добавление информации о новых статьях. Подробнее
Подписаться Подписаться Подписаться