Содержание статьи
1. Что такое llm.txt и зачем он нужен
С момента массового внедрения AI-ассистентов в поисковые системы и браузеры (ChatGPT, Gemini, Perplexity, Brave AI) сайты стали попадать в индексацию и обработку языковыми моделями, минуя традиционные поисковые алгоритмы.
Появился llm.txt — простой текстовый файл, похожий на robots.txt, но специально для AI-ботов. Он позволяет:
-
Разрешить/запретить краулинг разделов
-
Запретить обучение на контенте (
NoTrain) -
Запретить включение в ответы моделей (
NoIndex) -
Ограничить частоту запросов (
Crawl-delay)
Важно: многие популярные AI-краулеры (GPTBot, ClaudeBot, CCBot, PerplexityBot) уже учитывают llm.txt.
2. Почему llm.txt устаревает
Хотя llm.txt работает, он ограничен по функциональности:
-
Нет поддержки структурированных политик
-
Неясна юридическая сила директив (например,
NoTrain) -
Отсутствует поддержка сложных условий (например, по географии)
Поэтому с 2024 года начали внедрять новый формат — llm.jsonl и TDM-политику в формате JSON-LD по стандарту W3C TDMRep (Text and Data Mining Reservation Protocol).
3. Что такое llm.jsonl — формат нового поколения
llm.jsonl — это машино-читаемый файл в формате JSON Lines (по одной политике на строку).
Каждая строка — JSON-объект, описывающий:
-
user-agent (бота)
-
путь (
location) -
доступ (
allow) -
разрешение на обучение (
train) -
разрешение на индексирование (
index) -
задержку между запросами (
crawl_delay)
🔍 Пример строки в llm.jsonl:
{"user_agent":"*", "location":"/blog/", "allow":true, "train":true, "index":true, "crawl_delay":5}4. Чек-лист: как внедрить llm.txt и llm.jsonl вместе
✅ Шаг 1: Аудит сайта
– выделите публичный, приватный, премиум-контент
– решите, что можно показывать и использовать для обучения
✅ Шаг 2: Создание llm.txt
User-agent: *
Allow: /blog/
Disallow: /admin/
NoTrain: /premium/
NoIndex: /drafts/
Crawl-delay: 5
✅ Шаг 3: Создание .well-known/llm.jsonl
{"user_agent":"*", "location":"/blog/", "allow":true, "train":true, "index":true, "crawl_delay":5}
{"user_agent":"*", "location":"/premium/", "allow":true, "train":false, "index":false}
✅ Шаг 4: Добавьте ссылку в <head> сайта
<link rel="tdm-reservation" href="/.well-known/llm.jsonl">
✅ Шаг 5: Проверка
curl https://example.com/llm.txt
curl https://example.com/.well-known/llm.jsonl5. Шаблоны для разных типов сайтов
Блог
User-agent: *
Allow: /blog/
NoTrain: /blog/premium/
NoIndex: /blog/drafts/
{"user_agent":"*", "location":"/blog/", "allow":true, "train":true, "index":true}
{"user_agent":"*", "location":"/blog/premium/", "train":false, "index":false}
SaaS / продукт
User-agent: *
Allow: /docs/
Disallow: /app/
NoTrain: /pricing/
{"user_agent":"*", "location":"/docs/", "allow":true, "train":true}
{"user_agent":"*", "location":"/pricing/", "train":false}
Медиа с paywall
User-agent: *
Allow: /news/
Disallow: /paywall/
NoTrain: /paywall/
NoIndex: /paywall/
6. Сравнение всех форматов
| Формат | Для кого | Поддержка | Юридическая сила | Гибкость |
|---|---|---|---|---|
robots.txt |
поисковые роботы | 100% | высокая | средняя |
llm.txt |
AI-боты | высокая (GPTBot, Anthropic) | низкая | базовая |
llm.jsonl |
AI-боты нового поколения | растущая | средняя | высокая |
tdm-policy.json (JSON-LD) |
юрисдикции и правозащита | TDMRep (W3C, EU) | высокая | максимальная |
7. Автоматизация через CI/CD
Храните правила в YAML, из него генерируйте оба файла:
rules:
- user_agent: "*"
location: "/blog/"
allow: true
train: true
index: true
crawl_delay: 5
- user_agent: "*"
location: "/premium/"
allow: true
train: false
index: false8. Юридическая перспектива: TDM & EU
По директиве EU 2019/790, владельцы контента имеют право отказаться от использования их данных в машинном обучении. Это закрепляется через:
-
tdm-policy.json(в формате JSON-LD) -
HTTP-заголовок
tdm-reservation: 1 -
или link rel=tdm-reservation
Это становится обязательным в Европе и рекомендованным в США и Великобритании с 2025 г.
9. Кто реально читает эти файлы
| Бот | Читает llm.txt | Читает jsonl | Уважает NoTrain |
|---|---|---|---|
| GPTBot (OpenAI) | ✅ | частично | частично |
| ClaudeBot (Anthropic) | ✅ | ⚠️ | ⚠️ |
| PerplexityBot | ✅ | ⚠️ | ⚠️ |
| CommonCrawl | ⚠️ | ✅ (TDMRep) | ❌ |
| Google-Extended | ✅ | ❌ | ❌ |
⚠️ — поддержка в процессе тестирования или частично реализована
10. Вывод и рекомендации
✅ Используйте llm.txt как быстрый способ контроля за краулингом и обучением.
✅ Создайте llm.jsonl в .well-known — он уже начинает поддерживаться и скоро станет стандартом.
✅ Добавьте link rel="tdm-reservation" в ваш <head>, чтобы указать политику AI-доступа.
✅ Мониторьте логи на запросы от AI-ботов — и будьте готовы к обновлению правил по мере роста их возможностей.





