Поисковый робот (crawler, spider, bot) — автоматическая программа поисковой системы, которая систематически обходит страницы интернета, скачивает их содержимое и передаёт данные для индексирования. Без работы поискового робота страница не попадёт в индекс и не будет показана в результатах поиска.
У каждой поисковой системы есть свой робот: Googlebot (Google), Яндексбот (Яндекс), Bingbot (Bing). Роботы идентифицируются по HTTP-заголовку User-Agent, что позволяет управлять их доступом через robots.txt.
Как поисковый робот обходит сайт
- Робот начинает с известных URL (из sitemap.xml или ранее проиндексированных страниц).
- Скачивает HTML-страницу и извлекает все ссылки.
- Добавляет новые ссылки в очередь обхода (crawl queue).
- Передаёт контент страницы для анализа и добавления в индекс.
- Возвращается к ранее посещённым страницам для обновления.
Часто задаваемые вопросы
Как управлять поисковым роботом через robots.txt?
Файл robots.txt в корне сайта указывает роботам, какие страницы можно и нельзя обходить. Синтаксис: User-agent: * (все роботы) или User-agent: Googlebot (только Google). Disallow: /admin/ — запретить обход папки admin. Allow: /admin/public/ — разрешить конкретную страницу внутри запрещённой папки. Crawl-delay: 2 — задержка между запросами в секундах (только для Яндексбота). Важно: Disallow НЕ запрещает индексацию страницы — только её краулинг. Если на страницу с Disallow ведут внешние ссылки, она может попасть в индекс без содержимого. Для запрета индексации используйте тег meta robots noindex на самой странице.
Что такое crawl budget и почему он важен?
Crawl budget (бюджет краулинга) — количество страниц сайта, которые поисковый робот готов обойти за определённый период. Зависит от: авторитетности домена (высокий DR → больший бюджет), скорости ответа сервера, количества страниц на сайте. Проблема: если на сайте 100 000 страниц, но бюджет — 5000 обходов/день → 95% страниц редко краулятся. Важные страницы могут обновляться в индексе неделями. Оптимизация crawl budget: 1) Блокируйте ненужные страницы (дубли, фильтры, параметры) через robots.txt. 2) Ускоряйте сервер (быстрый ответ = больше краулинга за то же время). 3) Убирайте битые ссылки — робот «тратит» бюджет на 404-страницы. 4) Сократите дубли через canonical. Актуально для сайтов от 10 000+ страниц.
Как проверить, какие страницы посещает Googlebot?
Инструменты: 1) Google Search Console → «Настройки» → «Статистика сканирования» — показывает дневную активность Googlebot: количество запросов, объём скачанных данных, время ответа. 2) Логи сервера: самый точный способ. В access.log ищите строки с User-agent: Mozilla/5.0…Googlebot. Можно настроить парсинг логов через Screaming Frog Log File Analyzer или Botify. 3) Google URL Inspection Tool в Search Console: покажет, когда Google последний раз кешировал конкретный URL. 4) Яндекс Вебмастер → «Статистика обхода» → аналогичный отчёт для Яндексбота.
Могут ли поисковые роботы читать JavaScript-контент?
Да, но с оговорками: Googlebot: умеет рендерить JavaScript, но с задержкой. Страница сначала краулится «сырым» HTML (без JS), затем ставится в очередь на рендеринг — это может занять дни или недели. Яндексбот: рендеринг JS менее надёжен, чем у Google. Практические рекомендации: 1) Критичный SEO-контент (заголовки, тексты, ссылки) не должен зависеть от JavaScript — рендерите на сервере (SSR) или обеспечьте статический HTML. 2) Для SPA (React, Vue, Angular) обязательно использовать SSR (Next.js, Nuxt.js) или pre-rendering. 3) Проверьте, что видит робот: Search Console → URL Inspection → «Проверить URL» → вкладка «Снимок» показывает результат рендеринга Googlebot.