Индексация в поисковых системах
Индексирование в поисковых системах (веб-индексирование) — процесс добавления сведений (о сайте) роботом поисковой машины в базу данных, впоследствии использующуюся для (полнотекстового) поиска информации на проиндексированных сайтах.
В сведения о сайте чаще всего входят ключевые слова (алгоритм определения ключевых слов зависит от поисковой системы), статьи, ссылки, документы, также могут индексироваться изображения, аудио и т. д.
Существуют некоторые ограничения на типы индексируемых данных (javascript, flash-файлы).
Для управления индексацией (например, запрета индексации той или иной страницы) используется файл robots.txt и такие директивы как Disallow, Allow, User-agent, Crawl-delay и другие. Также, для управления индексацией применяют теги <noindex> и атрибут <nofollow>, закрывающие содержимое сайта от роботов Яндекса и Google соответственно (Yahoo использует тег <nofollow>).
Ускорение индексации
Помимо управления запретами через файл robots.txt, веб-мастера могут использовать ряд методов для ускорения процесса индексации и привлечения поисковых роботов на новые или обновлённые страницы сайта.
Основные способы влияния на скорость индексации включают:
Использование файлов Sitemap. XML-карта сайта предоставляет поисковым системам структурированный список всех страниц, подлежащих индексации. Использование тега <lastmod> в файле Sitemap позволяет указать роботу дату последнего изменения страницы, что является прямым сигналом для переиндексации.
Прямая отправка URL-адресов. Инструменты для веб-мастеров, такие как Google Search Console и Bing Webmaster Tools, предоставляют функцию запроса индексации для отдельных URL. Это позволяет вручную уведомить поисковую систему о появлении новой страницы или обновлении существующей.
Внутренняя перелинковка. Размещение ссылок на новые страницы с уже проиндексированных и авторитетных страниц сайта помогает поисковым роботам быстрее обнаруживать новый контент во время планового обхода.
Внешние ссылки. Ссылки с других, уже проиндексированных сайтов (особенно авторитетных и часто посещаемых роботами) могут значительно ускорить первую индексацию страницы, так как поисковый робот переходит по ним для обнаружения нового контента.
Использование Indexing API. Некоторые поисковые системы предоставляют API для прямого уведомления о новых страницах. Например, Google предлагает Indexing API (предназначенный для определённых типов контента, таких как вакансии и прямые трансляции), а Bing предоставляет более универсальный URL Submission API.
Специализированные сервисы. Существуют сторонние сервисы, такие как IndexNow, SpeedyIndex, которые заявляют об ускорении процесса индексации, используя различные методы для привлечения поисковых роботов на указанные URL-адреса.