robots.txt и llms.txt для AI: настройка для GPTBot, ClaudeBot и PerplexityBot

TL;DR: AI-краулеры (GPTBot, ClaudeBot, PerplexityBot и другие) подчиняются правилам robots.txt. Блокируя их, вы теряете возможность попасть в ответы нейросетей. А файл llms.txt помогает языковым моделям быстро понять структуру вашего сайта. В этой статье — полный список AI-ботов, готовые примеры конфигураций robots.txt и llms.txt, пошаговая настройка за 30 минут. Эта тема тесно связана с SEO-продвижением сайта — правильная настройка технических файлов влияет и на классический поиск, и на AI-видимость.

Какие AI-боты сканируют сайты: полный список

Каждая AI-платформа использует собственных краулеров для сканирования веб-страниц. Эти боты идентифицируют себя через User-Agent — строку в HTTP-запросе. Вот полный список актуальных AI-краулеров:

AI-краулеры: User-Agent, компания и назначение
User-Agent Компания Назначение
GPTBot OpenAI Сбор данных для обучения моделей GPT. Сканирует для пополнения базы знаний.
OAI-SearchBot OpenAI Краулер для SearchGPT — поисковой системы OpenAI. Сканирует для выдачи результатов в реальном времени.
ChatGPT-User OpenAI Используется, когда ChatGPT с функцией browsing обращается к сайту по запросу пользователя.
ClaudeBot Anthropic Краулер Claude. Сканирует для обучения и обновления базы знаний моделей Claude.
PerplexityBot Perplexity AI Краулер поисковой AI-системы Perplexity. Сканирует для формирования ответов в реальном времени.
Google-Extended Google Отдельный от Googlebot краулер для обучения AI-моделей (Gemini, AI Overviews). Блокировка Google-Extended не влияет на обычную индексацию в Google.
Bytespider ByteDance Краулер TikTok/ByteDance для обучения AI-моделей. Один из самых агрессивных по объёму запросов.
CCBot Common Crawl Краулер некоммерческого проекта Common Crawl. Его данные используются многими AI-компаниями для обучения.
FacebookBot Meta Используется для обучения AI-моделей Meta (Llama). Также сканирует для предпросмотра ссылок.
Amazonbot Amazon Краулер для Alexa AI и поисковых продуктов Amazon.

Важно: ChatGPT-User — особый случай. Это не краулер для обучения, а прямой запрос от ChatGPT при использовании функции browsing. Блокировка ChatGPT-User означает, что ChatGPT не сможет обратиться к вашему сайту, когда пользователь явно просит найти на нём информацию.

robots.txt: примеры конфигурации для AI-ботов

Вариант 1: Разрешить всех AI-ботов (рекомендуется для GEO)

# === Стандартные правила ===
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /wp-admin/admin-ajax.php

# === AI-краулеры: разрешить ===
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Amazonbot
Allow: /

# === Агрессивные краулеры: ограничить ===
User-agent: Bytespider
Crawl-delay: 10
Allow: /blog/
Allow: /uslugi/
Disallow: /

User-agent: CCBot
Crawl-delay: 10
Allow: /blog/
Allow: /uslugi/
Disallow: /

Sitemap: https://example.ru/sitemap.xml

Вариант 2: Выборочный доступ (для сайтов с платным контентом)

# AI-краулеры: доступ только к открытому контенту
User-agent: GPTBot
Allow: /blog/
Allow: /about/
Allow: /faq/
Disallow: /premium/
Disallow: /courses/
Disallow: /members/

User-agent: ClaudeBot
Allow: /blog/
Allow: /about/
Allow: /faq/
Disallow: /premium/
Disallow: /courses/
Disallow: /members/

User-agent: PerplexityBot
Allow: /blog/
Allow: /about/
Allow: /faq/
Disallow: /premium/
Disallow: /courses/
Disallow: /members/

Вариант 3: Полная блокировка AI (НЕ рекомендуется)

# Блокировка всех AI-краулеров
# ВНИМАНИЕ: сайт не попадёт в ответы нейросетей
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Почему блокировка AI-ботов — стратегическая ошибка

Многие владельцы сайтов, опасаясь «кражи контента» нейросетями, блокируют AI-краулеры в robots.txt. Это понятная, но в большинстве случаев контрпродуктивная реакция. Вот почему:

  • Потеря AI-трафика. По данным Similarweb, AI-платформы направили на сайты более 1 миллиарда визитов за июнь 2025 года, с ростом более 300% год к году. Блокировка AI-ботов означает отказ от этого канала.
  • Конкуренты заполнят вакуум. Если нейросеть не может сканировать ваш сайт, она процитирует конкурента. Вы буквально отдаёте AI-трафик другим.
  • Данные уже в обучающих наборах. Модели GPT-4, Claude, Gemini обучены на данных Common Crawl и других корпусах, собранных до 2024-2025 годов. Блокировка сейчас не удалит ваш контент из уже обученных моделей — она лишь предотвратит обновление.
  • SEO-сигналы работают в обе стороны. Google заявил, что блокировка Google-Extended не влияет на обычную индексацию. Но AI-упоминания сайта могут косвенно усиливать его авторитетность и в классическом поиске.

Когда блокировка оправдана:

  • Платный контент (курсы, подписки) — закройте от AI платные разделы, оставив открытыми промо-страницы.
  • Агрессивные краулеры (Bytespider, CCBot) создают избыточную нагрузку на сервер — ограничьте их через Crawl-delay.
  • Юридические требования вашей отрасли запрещают передачу данных AI-системам.

llms.txt: формат и примеры

llms.txt — текстовый файл, размещаемый в корне сайта (https://example.ru/llms.txt). Его задача — дать языковым моделям структурированную «карту» сайта с аннотациями. Формат предложен разработчиком Джереми Ховардом (Jeremy Howard, fast.ai) в 2024 году.

Структура llms.txt

# Название сайта / компании

> Краткое описание (1-2 предложения): чем занимается, для кого.

## Основные страницы

- [Главная](https://example.ru/): Описание главной страницы
- [О компании](https://example.ru/about/): История, команда, миссия
- [Услуги](https://example.ru/services/): Полный список услуг

## Блог / Статьи

- [Статья 1](https://example.ru/blog/article-1/): Краткая аннотация
- [Статья 2](https://example.ru/blog/article-2/): Краткая аннотация

## Контакты

- Телефон: +7 (XXX) XXX-XX-XX
- Email: info@example.ru
- Адрес: Город, улица, дом

## Optional

- [Полная версия](https://example.ru/llms-full.txt): Расширенный файл с детальным описанием

Реальный пример для Artvision

# Artvision — веб-студия и SEO-агентство

> Artvision — digital-агентство в Санкт-Петербурге. Специализация: SEO-продвижение, GEO-оптимизация (продвижение в нейросетях), создание сайтов, контекстная реклама. Работаем с 2015 года.

## Услуги

- [SEO-продвижение](https://artvision.pro/seo-prodvizhenie-sayta/): Комплексное SEO-продвижение сайтов в Яндекс и Google
- [GEO-оптимизация](https://artvision.pro/uslugi/geo-optimizaciya/): Оптимизация сайта для попадания в ответы ChatGPT, YandexGPT, Perplexity
- [Создание сайтов](https://artvision.pro/sozdanie-sajtov/): Разработка сайтов на WordPress и MODX
- [Контекстная реклама](https://artvision.pro/kontekstnaya-reklama/): Настройка Яндекс.Директ и Google Ads

## Экспертные статьи (GEO-оптимизация)

- [Что такое GEO-оптимизация](https://artvision.pro/blog/chto-takoe-geo-optimizaciya/): Полный гайд по GEO для бизнеса — что это, как работает, кому нужно
- [Как попасть в ответы нейросетей](https://artvision.pro/blog/kak-popast-v-otvety-nejrosetej/): 12 шагов для попадания в ответы ChatGPT, YandexGPT, Perplexity
- [Schema.org для нейросетей](https://artvision.pro/blog/schema-org-dlya-nejrosetej/): JSON-LD разметка для GEO — примеры FAQPage, HowTo, Article, Product
- [E-E-A-T для нейросетей](https://artvision.pro/blog/e-e-a-t-dlya-nejrosetej/): Как стать авторитетным источником для AI-систем

## Контакты

- Телефон: +7 (911) 086-18-88
- Email: info@artvision.pro
- Telegram: https://t.me/artvisionpro
- Адрес: Санкт-Петербург, Щербаков переулок 17/3

Также существует формат llms-full.txt — расширенная версия с более детальным описанием каждой страницы. Основной llms.txt должен быть компактным (до 500 строк), а llms-full.txt может содержать подробные аннотации для всех страниц сайта.

Кто поддерживает llms.txt

По состоянию на февраль 2026 года формат llms.txt находится в стадии активного принятия сообществом. Ситуация с поддержкой:

  • Perplexity — одна из первых платформ, заявивших о поддержке llms.txt. Perplexity использует этот файл для понимания структуры сайта при формировании ответов.
  • Claude (Anthropic) — ClaudeBot учитывает llms.txt при сканировании.
  • ChatGPT / OpenAI — прямое подтверждение поддержки отсутствует в официальной документации, однако GPTBot может использовать llms.txt как дополнительный сигнал.
  • Google — пока не подтвердил поддержку llms.txt для AI Overviews. Googlebot ориентируется на sitemap.xml и структурированные данные.
  • Множество сайтов — по данным сообщества, тысячи сайтов уже внедрили llms.txt, включая документацию крупных технологических компаний и проектов с открытым кодом.

Вывод: даже без стопроцентной поддержки всеми AI-платформами, llms.txt — это инвестиция на 15-30 минут, которая не несёт рисков и потенциально улучшает понимание сайта нейросетями. Рекомендуется внедрять уже сейчас.

Настройка за 30 минут: пошаговая инструкция

Шаг 1: Аудит текущего robots.txt (5 минут)

  1. Откройте https://ваш-сайт.ru/robots.txt в браузере.
  2. Проверьте, нет ли блокировок AI-ботов (User-agent: GPTBot + Disallow: /).
  3. Убедитесь, что Sitemap указан корректно.

Шаг 2: Обновить robots.txt (10 минут)

  1. Скопируйте «Вариант 1» из раздела выше.
  2. Замените пути Disallow на ваши: админка, корзина, личный кабинет, служебные разделы.
  3. Замените URL Sitemap на ваш.
  4. Загрузите файл в корень сайта через FTP или файловый менеджер хостинга. Если вам нужна помощь с технической частью, специалисты по разработке сайтов могут выполнить настройку за вас.
  5. Проверьте: откройте https://ваш-сайт.ru/robots.txt — изменения должны отобразиться.

Шаг 3: Создать llms.txt (10 минут)

  1. Создайте текстовый файл llms.txt в корне сайта.
  2. Заполните по шаблону из раздела выше: название, описание, ключевые страницы с аннотациями, контакты.
  3. Загрузите в корень сайта.
  4. Проверьте: откройте https://ваш-сайт.ru/llms.txt.

Шаг 4: Проверка (5 минут)

  1. Протестируйте robots.txt через валидатор robots.txt.
  2. В Google Search Console: «Настройки» → «Сканирование» → проверьте, что robots.txt обновлён.
  3. В Яндекс.Вебмастер: «Инструменты» → «Анализ robots.txt» → проверьте правила.

Проверка через логи сервера

После настройки robots.txt и llms.txt полезно отслеживать, какие AI-боты реально посещают ваш сайт. Для этого анализируйте логи веб-сервера.

Nginx (файл access.log)

# Найти все обращения GPTBot
grep "GPTBot" /var/log/nginx/access.log

# Найти все AI-краулеры
grep -E "(GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended|Bytespider|CCBot|Amazonbot)" /var/log/nginx/access.log

# Подсчитать количество запросов каждого бота
grep -oE "(GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended|Bytespider|CCBot)" /var/log/nginx/access.log | sort | uniq -c | sort -rn

Apache (файл access_log)

# Аналогичные команды для Apache
grep -E "(GPTBot|ClaudeBot|PerplexityBot)" /var/log/apache2/access_log | tail -20

На что обращать внимание:

  • Какие боты приходят — если GPTBot уже сканирует сайт, значит OpenAI видит ваш контент.
  • Какие страницы сканируют — приоритетные разделы для AI-ботов могут отличаться от приоритетов Googlebot.
  • Частота — если Bytespider делает тысячи запросов в день, стоит ограничить через Crawl-delay.
  • HTTP-коды ответов — статус 200 означает успешное сканирование, 403 или 404 — проблемы с доступом.

Часто задаваемые вопросы

Нужно ли блокировать AI-краулеры в robots.txt?

Нет, если ваша цель — попадание в ответы нейросетей. Блокировка GPTBot, ClaudeBot и PerplexityBot означает, что AI-системы не смогут сканировать ваш контент. Блокировка оправдана только для платного контента или юридических ограничений.

Что такое llms.txt и зачем он нужен?

llms.txt — текстовый файл в корне сайта, который помогает языковым моделям быстро понять структуру и ключевое содержание ресурса. Содержит описание сайта, список ключевых страниц с аннотациями. Формат предложен в 2024 году и поддерживается несколькими AI-платформами.

Какие AI-боты существуют и какие нужно разрешать?

Основные: GPTBot, OAI-SearchBot, ChatGPT-User (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google AI), Bytespider (ByteDance), CCBot (Common Crawl), FacebookBot (Meta), Amazonbot (Amazon). Для GEO рекомендуется разрешать все, кроме агрессивных (Bytespider, CCBot — для них ставить Crawl-delay).

Как проверить, какие боты посещают мой сайт?

Анализируйте access.log веб-сервера. Ищите User-Agent строки: GPTBot, ClaudeBot, PerplexityBot. Команда: grep -E "(GPTBot|ClaudeBot|PerplexityBot)" access.log.

Настроим robots.txt и llms.txt для вашего сайта

Специалисты Artvision проведут аудит текущей конфигурации, настроят robots.txt для AI-краулеров, создадут llms.txt и проверят доступность сайта для нейросетей. Это входит в услугу GEO-оптимизации.

Заказать GEO-оптимизацию

Поделиться

Антон Камеристый. Коммерческий директор

Коммерческий директор

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Больше видео в нашем Telegram-канале