robots.txt и llms.txt для AI: настройка для GPTBot, ClaudeBot и PerplexityBot
TL;DR: AI-краулеры (GPTBot, ClaudeBot, PerplexityBot и другие) подчиняются правилам robots.txt. Блокируя их, вы теряете возможность попасть в ответы нейросетей. А файл llms.txt помогает языковым моделям быстро понять структуру вашего сайта. В этой статье — полный список AI-ботов, готовые примеры конфигураций robots.txt и llms.txt, пошаговая настройка за 30 минут. Эта тема тесно связана с SEO-продвижением сайта — правильная настройка технических файлов влияет и на классический поиск, и на AI-видимость.
Какие AI-боты сканируют сайты: полный список
Каждая AI-платформа использует собственных краулеров для сканирования веб-страниц. Эти боты идентифицируют себя через User-Agent — строку в HTTP-запросе. Вот полный список актуальных AI-краулеров:
| User-Agent | Компания | Назначение |
|---|---|---|
| GPTBot | OpenAI | Сбор данных для обучения моделей GPT. Сканирует для пополнения базы знаний. |
| OAI-SearchBot | OpenAI | Краулер для SearchGPT — поисковой системы OpenAI. Сканирует для выдачи результатов в реальном времени. |
| ChatGPT-User | OpenAI | Используется, когда ChatGPT с функцией browsing обращается к сайту по запросу пользователя. |
| ClaudeBot | Anthropic | Краулер Claude. Сканирует для обучения и обновления базы знаний моделей Claude. |
| PerplexityBot | Perplexity AI | Краулер поисковой AI-системы Perplexity. Сканирует для формирования ответов в реальном времени. |
| Google-Extended | Отдельный от Googlebot краулер для обучения AI-моделей (Gemini, AI Overviews). Блокировка Google-Extended не влияет на обычную индексацию в Google. | |
| Bytespider | ByteDance | Краулер TikTok/ByteDance для обучения AI-моделей. Один из самых агрессивных по объёму запросов. |
| CCBot | Common Crawl | Краулер некоммерческого проекта Common Crawl. Его данные используются многими AI-компаниями для обучения. |
| FacebookBot | Meta | Используется для обучения AI-моделей Meta (Llama). Также сканирует для предпросмотра ссылок. |
| Amazonbot | Amazon | Краулер для Alexa AI и поисковых продуктов Amazon. |
Важно: ChatGPT-User — особый случай. Это не краулер для обучения, а прямой запрос от ChatGPT при использовании функции browsing. Блокировка ChatGPT-User означает, что ChatGPT не сможет обратиться к вашему сайту, когда пользователь явно просит найти на нём информацию.
robots.txt: примеры конфигурации для AI-ботов
Вариант 1: Разрешить всех AI-ботов (рекомендуется для GEO)
# === Стандартные правила ===
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /wp-admin/admin-ajax.php
# === AI-краулеры: разрешить ===
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Amazonbot
Allow: /
# === Агрессивные краулеры: ограничить ===
User-agent: Bytespider
Crawl-delay: 10
Allow: /blog/
Allow: /uslugi/
Disallow: /
User-agent: CCBot
Crawl-delay: 10
Allow: /blog/
Allow: /uslugi/
Disallow: /
Sitemap: https://example.ru/sitemap.xml
Вариант 2: Выборочный доступ (для сайтов с платным контентом)
# AI-краулеры: доступ только к открытому контенту
User-agent: GPTBot
Allow: /blog/
Allow: /about/
Allow: /faq/
Disallow: /premium/
Disallow: /courses/
Disallow: /members/
User-agent: ClaudeBot
Allow: /blog/
Allow: /about/
Allow: /faq/
Disallow: /premium/
Disallow: /courses/
Disallow: /members/
User-agent: PerplexityBot
Allow: /blog/
Allow: /about/
Allow: /faq/
Disallow: /premium/
Disallow: /courses/
Disallow: /members/
Вариант 3: Полная блокировка AI (НЕ рекомендуется)
# Блокировка всех AI-краулеров
# ВНИМАНИЕ: сайт не попадёт в ответы нейросетей
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Почему блокировка AI-ботов — стратегическая ошибка
Многие владельцы сайтов, опасаясь «кражи контента» нейросетями, блокируют AI-краулеры в robots.txt. Это понятная, но в большинстве случаев контрпродуктивная реакция. Вот почему:
- Потеря AI-трафика. По данным Similarweb, AI-платформы направили на сайты более 1 миллиарда визитов за июнь 2025 года, с ростом более 300% год к году. Блокировка AI-ботов означает отказ от этого канала.
- Конкуренты заполнят вакуум. Если нейросеть не может сканировать ваш сайт, она процитирует конкурента. Вы буквально отдаёте AI-трафик другим.
- Данные уже в обучающих наборах. Модели GPT-4, Claude, Gemini обучены на данных Common Crawl и других корпусах, собранных до 2024-2025 годов. Блокировка сейчас не удалит ваш контент из уже обученных моделей — она лишь предотвратит обновление.
- SEO-сигналы работают в обе стороны. Google заявил, что блокировка Google-Extended не влияет на обычную индексацию. Но AI-упоминания сайта могут косвенно усиливать его авторитетность и в классическом поиске.
Когда блокировка оправдана:
- Платный контент (курсы, подписки) — закройте от AI платные разделы, оставив открытыми промо-страницы.
- Агрессивные краулеры (Bytespider, CCBot) создают избыточную нагрузку на сервер — ограничьте их через
Crawl-delay. - Юридические требования вашей отрасли запрещают передачу данных AI-системам.
llms.txt: формат и примеры
llms.txt — текстовый файл, размещаемый в корне сайта (https://example.ru/llms.txt). Его задача — дать языковым моделям структурированную «карту» сайта с аннотациями. Формат предложен разработчиком Джереми Ховардом (Jeremy Howard, fast.ai) в 2024 году.
Структура llms.txt
# Название сайта / компании
> Краткое описание (1-2 предложения): чем занимается, для кого.
## Основные страницы
- [Главная](https://example.ru/): Описание главной страницы
- [О компании](https://example.ru/about/): История, команда, миссия
- [Услуги](https://example.ru/services/): Полный список услуг
## Блог / Статьи
- [Статья 1](https://example.ru/blog/article-1/): Краткая аннотация
- [Статья 2](https://example.ru/blog/article-2/): Краткая аннотация
## Контакты
- Телефон: +7 (XXX) XXX-XX-XX
- Email: info@example.ru
- Адрес: Город, улица, дом
## Optional
- [Полная версия](https://example.ru/llms-full.txt): Расширенный файл с детальным описанием
Реальный пример для Artvision
# Artvision — веб-студия и SEO-агентство
> Artvision — digital-агентство в Санкт-Петербурге. Специализация: SEO-продвижение, GEO-оптимизация (продвижение в нейросетях), создание сайтов, контекстная реклама. Работаем с 2015 года.
## Услуги
- [SEO-продвижение](https://artvision.pro/seo-prodvizhenie-sayta/): Комплексное SEO-продвижение сайтов в Яндекс и Google
- [GEO-оптимизация](https://artvision.pro/uslugi/geo-optimizaciya/): Оптимизация сайта для попадания в ответы ChatGPT, YandexGPT, Perplexity
- [Создание сайтов](https://artvision.pro/sozdanie-sajtov/): Разработка сайтов на WordPress и MODX
- [Контекстная реклама](https://artvision.pro/kontekstnaya-reklama/): Настройка Яндекс.Директ и Google Ads
## Экспертные статьи (GEO-оптимизация)
- [Что такое GEO-оптимизация](https://artvision.pro/blog/chto-takoe-geo-optimizaciya/): Полный гайд по GEO для бизнеса — что это, как работает, кому нужно
- [Как попасть в ответы нейросетей](https://artvision.pro/blog/kak-popast-v-otvety-nejrosetej/): 12 шагов для попадания в ответы ChatGPT, YandexGPT, Perplexity
- [Schema.org для нейросетей](https://artvision.pro/blog/schema-org-dlya-nejrosetej/): JSON-LD разметка для GEO — примеры FAQPage, HowTo, Article, Product
- [E-E-A-T для нейросетей](https://artvision.pro/blog/e-e-a-t-dlya-nejrosetej/): Как стать авторитетным источником для AI-систем
## Контакты
- Телефон: +7 (911) 086-18-88
- Email: info@artvision.pro
- Telegram: https://t.me/artvisionpro
- Адрес: Санкт-Петербург, Щербаков переулок 17/3
Также существует формат llms-full.txt — расширенная версия с более детальным описанием каждой страницы. Основной llms.txt должен быть компактным (до 500 строк), а llms-full.txt может содержать подробные аннотации для всех страниц сайта.
Кто поддерживает llms.txt
По состоянию на февраль 2026 года формат llms.txt находится в стадии активного принятия сообществом. Ситуация с поддержкой:
- Perplexity — одна из первых платформ, заявивших о поддержке llms.txt. Perplexity использует этот файл для понимания структуры сайта при формировании ответов.
- Claude (Anthropic) — ClaudeBot учитывает llms.txt при сканировании.
- ChatGPT / OpenAI — прямое подтверждение поддержки отсутствует в официальной документации, однако GPTBot может использовать llms.txt как дополнительный сигнал.
- Google — пока не подтвердил поддержку llms.txt для AI Overviews. Googlebot ориентируется на sitemap.xml и структурированные данные.
- Множество сайтов — по данным сообщества, тысячи сайтов уже внедрили llms.txt, включая документацию крупных технологических компаний и проектов с открытым кодом.
Вывод: даже без стопроцентной поддержки всеми AI-платформами, llms.txt — это инвестиция на 15-30 минут, которая не несёт рисков и потенциально улучшает понимание сайта нейросетями. Рекомендуется внедрять уже сейчас.
Настройка за 30 минут: пошаговая инструкция
Шаг 1: Аудит текущего robots.txt (5 минут)
- Откройте
https://ваш-сайт.ru/robots.txtв браузере. - Проверьте, нет ли блокировок AI-ботов (
User-agent: GPTBot+Disallow: /). - Убедитесь, что
Sitemapуказан корректно.
Шаг 2: Обновить robots.txt (10 минут)
- Скопируйте «Вариант 1» из раздела выше.
- Замените пути
Disallowна ваши: админка, корзина, личный кабинет, служебные разделы. - Замените URL Sitemap на ваш.
- Загрузите файл в корень сайта через FTP или файловый менеджер хостинга. Если вам нужна помощь с технической частью, специалисты по разработке сайтов могут выполнить настройку за вас.
- Проверьте: откройте
https://ваш-сайт.ru/robots.txt— изменения должны отобразиться.
Шаг 3: Создать llms.txt (10 минут)
- Создайте текстовый файл
llms.txtв корне сайта. - Заполните по шаблону из раздела выше: название, описание, ключевые страницы с аннотациями, контакты.
- Загрузите в корень сайта.
- Проверьте: откройте
https://ваш-сайт.ru/llms.txt.
Шаг 4: Проверка (5 минут)
- Протестируйте robots.txt через валидатор robots.txt.
- В Google Search Console: «Настройки» → «Сканирование» → проверьте, что robots.txt обновлён.
- В Яндекс.Вебмастер: «Инструменты» → «Анализ robots.txt» → проверьте правила.
Проверка через логи сервера
После настройки robots.txt и llms.txt полезно отслеживать, какие AI-боты реально посещают ваш сайт. Для этого анализируйте логи веб-сервера.
Nginx (файл access.log)
# Найти все обращения GPTBot
grep "GPTBot" /var/log/nginx/access.log
# Найти все AI-краулеры
grep -E "(GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended|Bytespider|CCBot|Amazonbot)" /var/log/nginx/access.log
# Подсчитать количество запросов каждого бота
grep -oE "(GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended|Bytespider|CCBot)" /var/log/nginx/access.log | sort | uniq -c | sort -rn
Apache (файл access_log)
# Аналогичные команды для Apache
grep -E "(GPTBot|ClaudeBot|PerplexityBot)" /var/log/apache2/access_log | tail -20
На что обращать внимание:
- Какие боты приходят — если GPTBot уже сканирует сайт, значит OpenAI видит ваш контент.
- Какие страницы сканируют — приоритетные разделы для AI-ботов могут отличаться от приоритетов Googlebot.
- Частота — если Bytespider делает тысячи запросов в день, стоит ограничить через
Crawl-delay. - HTTP-коды ответов — статус 200 означает успешное сканирование, 403 или 404 — проблемы с доступом.
Часто задаваемые вопросы
Нужно ли блокировать AI-краулеры в robots.txt?
Нет, если ваша цель — попадание в ответы нейросетей. Блокировка GPTBot, ClaudeBot и PerplexityBot означает, что AI-системы не смогут сканировать ваш контент. Блокировка оправдана только для платного контента или юридических ограничений.
Что такое llms.txt и зачем он нужен?
llms.txt — текстовый файл в корне сайта, который помогает языковым моделям быстро понять структуру и ключевое содержание ресурса. Содержит описание сайта, список ключевых страниц с аннотациями. Формат предложен в 2024 году и поддерживается несколькими AI-платформами.
Какие AI-боты существуют и какие нужно разрешать?
Основные: GPTBot, OAI-SearchBot, ChatGPT-User (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google AI), Bytespider (ByteDance), CCBot (Common Crawl), FacebookBot (Meta), Amazonbot (Amazon). Для GEO рекомендуется разрешать все, кроме агрессивных (Bytespider, CCBot — для них ставить Crawl-delay).
Как проверить, какие боты посещают мой сайт?
Анализируйте access.log веб-сервера. Ищите User-Agent строки: GPTBot, ClaudeBot, PerplexityBot. Команда: grep -E "(GPTBot|ClaudeBot|PerplexityBot)" access.log.
Настроим robots.txt и llms.txt для вашего сайта
Специалисты Artvision проведут аудит текущей конфигурации, настроят robots.txt для AI-краулеров, создадут llms.txt и проверят доступность сайта для нейросетей. Это входит в услугу GEO-оптимизации.
