Материал из РУВИКИ — свободной энциклопедии

Sitemaps

Sitemaps (англ. Sitemaps) — протокол в формате XML, предназначенный для информирования поисковых систем о URL-адресах на веб-сайте, доступных для сканирования. С помощью протокола Sitemaps веб-мастера могут указывать дополнительную информацию о каждой ссылке: дату последнего обновления, частоту изменений и относительную приоритетность среди других адресов на сайте. Это позволяет поисковым системам эффективнее сканировать сайт и находить страницы, изолированные от основной навигации ресурса. Протокол Sitemaps служит механизмом включения URL и дополняет стандарт исключения — файл robots.txt, который используется для исключения URL.

Google впервые представила протокол Sitemaps версии 0.84 в июне 2005 года, чтобы веб-разработчики могли публиковать списки ссылок со своих сайтов[1]. В ноябре 2006 года Google, Yahoo! и Microsoft объявили о совместной поддержке протокола Sitemaps[2]. Схема была обновлена до версии «Sitemap 0.90», других изменений не было.

В апреле 2007 года поддержка Sitemaps была объявлена со стороны Ask.com и IBM[3]. Компании Google, Yahoo и MSN также предложили автообнаружение карт сайта через robots.txt. В мае 2007 года правительства штатов Аризона, Калифорния, Юта и Вирджиния объявили о внедрении Sitemaps на своих официальных сайтах[4].

Протокол Sitemaps основан на идеях[5] («Crawler-friendly Web Servers»[6]), с дополнениями, включающими автообнаружение через robots.txt и возможность указания приоритета и частоты изменений страницы.

Эволюция практик и рекомендаций поисковых систем

[править | править код]

Хотя сам протокол Sitemaps остаётся стабильным с момента его принятия, практики и рекомендации по его использованию со стороны поисковых систем, в частности Google, претерпели существенные изменения в 2023—2024 годах[7]. Эти изменения сместили акцент с методов уведомления на качество предоставляемых в файле данных.

Одним из ключевых изменений стал отказ Google от поддержки конечной точки для ping-запросов в 2023 году, которая ранее позволяла веб-мастерам программно уведомлять поисковую систему об обновлениях карты сайта[7]. Вместо этого Google усилил значимость тега <lastmod>, который теперь является основным сигналом для планирования повторного сканирования уже известных URL-адресов[7]. В июне 2024 года компания обновила свою документацию, уточнив, что дата в <lastmod> должна отражать только существенные изменения на странице (например, обновление основного контента или структурированных данных), а не косметические правки[8][9].

Одновременно Google подтвердил, что теги <changefreq> (частота изменений) и <priority> (приоритет) не учитываются его поисковыми алгоритмами, что ещё больше подчеркнуло центральную роль тега <lastmod>[10].

В декабре 2024 года Google провёл реорганизацию своей документации по Sitemaps с целью устранения избыточной информации и улучшения примеров использования расширений протокола (например, для видео или изображений)[11]. Было также опубликовано руководство по комбинированию нескольких типов расширений в одном файле[11].

Несмотря на развитие поисковых роботов, способных эффективно находить контент без карты сайта, Sitemaps по-прежнему считаются важным инструментом SEO, особенно для крупных сайтов со сложной структурой, новых ресурсов с малым количеством внешних ссылок и порталов с часто обновляемым контентом[12].

Назначение

[править | править код]

Использование Sitemaps особенно полезно на сайтах, где:

  • Некоторые разделы сайта недоступны через обычный интерфейс навигации[13];
  • Веб-мастерами используется сложный Ajax, Silverlight или Flash, не воспринимаемый стандартными поисковыми системами;
  • Сайт очень большой, из-за чего вновь добавленный или недавно изменённый контент может быть не замечен сканерами[13];
  • На сайте очень много страниц, которые изолированы друг от друга или плохо связаны между собой[13];
  • У сайта очень мало внешних ссылок[13].

Формат файла

[править | править код]

Формат протокола Sitemaps основан на тегах XML. Файл должен быть закодирован в UTF-8. Также карта сайта может быть предоставлена в виде простого текста — списка URL-адресов либо сжатой в формате .gz.

Пример Sitemap, содержащего только одну ссылку со всеми доступными дополнительными тегами:

<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"
    xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>https://example.com/</loc>
        <lastmod>2006-11-18</lastmod>
        <changefreq>daily</changefreq>
        <priority>0.8</priority>
    </url>
</urlset>

Протокол Sitemap XML также расширен за счёт возможности указывать несколько карт сайта в одном индексе (sitemap index). Максимальный размер карты сайта: 50 МиБ или 50 000 URL-адресов[14]. Для больших сайтов рекомендуется использовать индекс-карты.

Пример Sitemap index, ссылающегося на отдельную карту сайта:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd"
    xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>https://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2014-10-01T18:23:17+00:00</lastmod>
   </sitemap>
</sitemapindex>

Определения основных элементов карты сайта:

Элемент Обязателен? Описание
Да Элемент верхнего (документного) уровня для карты сайта. Всё содержимое должно быть внутри этого тега (за исключением строки «<?xml version>»).
Да Родительский элемент для каждого отдельного URL-адреса.
Да Элемент верхнего уровня для файлов-индексов.
Да Родительский элемент для каждого элемента в индексе.
Да Указывает полный URL страницы или файла карты сайта, включая протокол (например, http, https) и конечный слэш, если требуется сервером. Значение — не более 2048 символов; амперсанды экранируются как &amp;.
Нет Дата последнего изменения файла в формате ISO 8601. Можно указать полную дату и время или только дату (ГГГГ-ММ-ДД).
Нет Частота изменения страницы:
  • always (всегда)
  • hourly (ежечасно)
  • daily (ежедневно)
  • weekly (еженедельно)
  • monthly (ежемесячно)
  • yearly (ежегодно)
  • never (никогда)

«always» — для документов, меняющихся при каждом обращении; «never» — для архивных URL. Используется только как рекомендация для сканеров, не влияет напрямую на частоту индексирования. По состоянию на 2025 год поисковая система Google игнорирует этот тег[15]. Не применяется к элементам .

Нет Относительный приоритет этого URL на сайте: число от 0,0 до 1,0 (по умолчанию 0,5; максимальное — 1,0). Используется для указания важности конкретных страниц для сканеров. Массовое присваивание высокого приоритета не влияет на окончательный порядок в поисковой выдаче. По состоянию на 2025 год поисковая система Google игнорирует этот тег[15].

Не применяется к элементам .

Поддержка необязательных элементов различается у разных поисковых систем.

Прочие форматы

[править | править код]

Текстовый файл[править | править код]

Протокол Sitemaps допускает предоставление карты сайта как простого текстового списка URL. Требования к кодировке (UTF-8), объёму (не более 50 МиБ) и количеству ссылок (до 50 000 в одном файле) аналогичны XML-картам. Карты сайта, превышающие эти ограничения, разбиваются на несколько файлов с индексом-картой[16].

Ленты синдикации[править | править код]

Лента синдикации также может использоваться для отправки URL-адресов сканеру, что рекомендуется для сайтов с уже действующими лентами. Недостаток такого подхода — через ленты обычно передаются только последние добавленные страницы, а остальные могут быть найдены лишь при полном сканировании[14]

Рекомендовано использовать ленту для передачи только изменений, дополняя её основной картой сайта.

Отправка карты сайта в поисковые системы

[править | править код]

При отправке карты сайта напрямую в поисковую систему (так называемый пинг), обычно можно получить ответ о статусе обработки и о возможных ошибках. Конкретная процедура зависит от поисковой системы. Расположение карты сайта можно также указать в файле robots.txt, добавив строку:

Sitemap: <sitemap_location>

Где <sitemap_location> — полный URL карты сайта, например:

https://www.example.org/sitemap.xml

Эта директива независима от параметра user-agent и может располагаться в любой части файла. При наличии нескольких карт сайта записывается несколько строк Sitemap:, либо указывается индекс-карта.

В таблице представлены URL для отправки карт сайта в основные поисковые системы:

Поисковая система URL отправки Справка Рынок
Baidu https://zhanzhang.baidu.com/dashboard/index Baidu Webmaster Dashboard Китай, Сингапур
BingYahoo!) https://www.bing.com/webmaster/ping.aspx?siteMap= Bing Webmaster Tools Глобально
Яндекс https://webmaster.yandex.com/site/map.xml Sitemaps files Россия, Беларусь, Казахстан, Турция

URL для отправки карт сайта обычно должны быть URL-кодированы, например: — заменить : на %3A, — заменить / на %2F.

26 июня 2023 года Google объявил о прекращении поддержки конечной точки для ping-запросов. Это решение было мотивировано низкой эффективностью метода и большим количеством спама. Окончательно функция была отключена в конце 2023 — начале 2024 года, после чего запросы к ней стали возвращать ошибку 404[17]. Вместо этого Google рекомендует использовать файл robots.txt и инструмент Google Search Console для информирования о наличии карты сайта.

Ограничения для индексирования поисковиками[править | править код]

Sitemaps дополняет, но не заменяет стандартные механизмы поиска ссылок поисковыми системами. Использование этого протокола не гарантирует включение всех страниц сайта в индекс и не влияет напрямую на их ранжирование. Примеры:

  • Google — «Использование карты сайта не гарантирует, что все элементы из неё будут сканированы и проиндексированы, так как обработка базируется на сложных алгоритмах. Однако в большинстве случаев карта сайта пойдёт на пользу ресурсу, и за её использование не предусмотрено никаких санкций»[18].
  • Bing — использует стандартный протокол sitemaps.org и работает схожим образом.
  • Yahoo — после объединения поиска Yahoo! Inc. и Microsoft, служба Yahoo! Site Explorer слилась с Bing Webmaster Tools.

Ограничения карт сайта

[править | править код]

Объём одной карты сайта ограничен 50 000 адресов и 50 МиБ (52 428 800 байт). Для экономии трафика допускается сжатие посредством gzip. Поддерживается использование нескольких файлов-карт (и отдельного индекс-файла). Индексная карта не должна содержать более 50 000 карт и превышать 50 МиБ, также может сжиматься. Разрешается иметь более одного индекс-файла[14]

Рекомендуется для оптимальной индексации, чтобы индекс-карта содержала только ссылки на собственно карты сайта, а не вложенные индекс-файлы — Google не поддерживает многоуровневое вложение[19].

Дополнительные типы карт сайта

[править | править код]

Существуют расширения основного протокола: Google поддерживает специальные XML-карты для указания дополнительной информации о содержимом сайта. Карты сайта для видео и изображений призваны улучшить ранжирование в поиске по соответствующим медиафайлам[20][21].

Карты сайта для видео[править | править код]

Специальные карты позволяют указать информацию о возможностях встраивания и автозапуска, предпочтительные миниатюры, дату публикации, длительность видео и другие метаданные[21]. С их помощью добавляются в индекс даже видеоролики, размещаемые на таких сервисах, как Vimeo или YouTube.

Карты сайта для изображений[править | править код]

Позволяют указывать метаданные изображений: лицензию, местоположение, подпись и другое[20].

Карты Google News[править | править код]

Google поддерживает отдельный формат карты сайта для Google News — для ускоренного индексирования новостных материалов[22][23].

Мультиязычные и мультирегиональные карты сайта

[править | править код]

В декабре 2011 года Google анонсировала внедрение аннотаций для сайтов, ориентированных на пользователей разных языков и стран. Несколько месяцев спустя компания официально объявила[24] о поддержке указания rel="alternate" и hreflang в картах сайта. Раньше это требовало HTML-элементов или HTTP-заголовков в каждой языковой версии страницы.

Пример для сайта, ориентированного на англоязычных (https://www.example.com/en) и грекоязычных (https://www.example.com/gr) пользователей:

Ранее указывалось в каждой странице:

<link rel="alternate" hreflang="en" href="https://www.example.com/en" />
<link rel="alternate" hreflang="gr" href="https://www.example.com/gr" />

Теперь альтернативная запись доступна прямо в карте сайта:

 <url>
   <loc>https://www.example.com/en</loc>
    <xhtml:link
      rel="alternate"
      hreflang="gr"
      href="https://www.example.com/gr" />
    <xhtml:link
      rel="alternate"
      hreflang="en"
      href="https://www.example.com/en" />
 </url>
 <url>
   <loc>https://www.example.com/gr</loc>
    <xhtml:link
      rel="alternate"
      hreflang="gr"
      href="https://www.example.com/gr" />
    <xhtml:link
      rel="alternate"
      hreflang="en"
      href="https://www.example.com/en" />
 </url>

Примечания

[править | править код]
  1. Shivakumar, Shiva Google Blog: Webmaster-friendly (англ.). Google Blog (2 июня 2005). Дата обращения: 31 декабря 2021. Архивировано 8 июня 2005 года.
  2. Major Search Engines Unite to Support a Common Mechanism for Website Submission (англ.). News from Google (16 ноября 2006). Дата обращения: 31 декабря 2021.
  3. Pathak, Vivek The Ask.com Blog: Sitemaps Autodiscovery (англ.). Ask's Official Blog (11 мая 2007). Дата обращения: 31 декабря 2021. Архивировано 18 мая 2007 года.
  4. Information for Public Sector Organizations. Архивировано 30 апреля 2007 года.
  5. M. L. Nelson; J. A. Smith; del Campo; H. Van de Sompel; X. Liu (2006). “Efficient, Automated Web Resource Harvesting” (PDF). WIDM'06.
  6. O. Brandman, J. Cho, Hector Garcia-Molina, Narayanan Shivakumar (2000). “Crawler-friendly web servers”. Proceedings of ACM SIGMETRICS Performance Evaluation Review, Volume 28, Issue 2. DOI:10.1145/362883.362894.
  7. 1 2 3 Прощаемся с конечной точкой для ping-запросов Sitemap. Google Search Central Blog (26 июня 2023). Дата обращения: 3 ноября 2025.
  8. Google Sitemaps Doc Now Says When To Update The Lastmod Date (англ.). Search Engine Roundtable (21 июня 2024). Дата обращения: 3 ноября 2025.
  9. XML Sitemaps News & Updates (англ.). Search Herald. Дата обращения: 3 ноября 2025.
  10. Sitemap.xml: управляем сканированием и индексацией сайта. TexTerra (20 февраля 2024). Дата обращения: 3 ноября 2025.
  11. 1 2 История изменений в документации о Поиске. Google. Дата обращения: 3 ноября 2025.
  12. Sitemaps for SEO in 2025: What's Changed & Why It Matters (англ.). FlowMapp. Дата обращения: 3 ноября 2025.
  13. 1 2 3 4 Learn about sitemaps (англ.). Google Developers. Дата обращения: 1 июня 2021.
  14. 1 2 3 Sitemaps XML format (англ.). Sitemaps.org (21 ноября 2016). Дата обращения: 1 декабря 2016.
  15. 1 2 Как создать и отправить файл Sitemap. Google Search Central. Дата обращения: 3 ноября 2025.
  16. Build and submit a sitemap - Search Console Help (англ.). Support.google.com. Дата обращения: 30 ноября 2020.
  17. Google To Drop Support For Sitemaps Ping Endpoints (англ.). Search Engine Roundtable (26 июня 2023). Дата обращения: 3 ноября 2025.
  18. About Google Sitemaps (англ.) (1 декабря 2016). Дата обращения: 1 декабря 2016.
  19. Sitemaps report - Search Console Help (англ.). support.google.com. Дата обращения: 15 апреля 2020.
  20. 1 2 Image Sitemaps (англ.). Google Search Console. Дата обращения: 28 декабря 2018.
  21. 1 2 Video Sitemaps (англ.). Google Search Console. Дата обращения: 28 декабря 2018.
  22. Bigby, Garenne Why You should be using a Google News Sitemap (англ.). Dyno Mapper. Дата обращения: 28 декабря 2018.
  23. Google News Sitemaps (англ.). Google Search Console. Дата обращения: 28 декабря 2018.
  24. Multilingual and multinational site annotations in Sitemaps (англ.). Google Webmaster Central Blog. Pierre Far (24 мая 2012).

Литература

[править | править код]