LLM.txt и LLM.jsonl: как управлять доступом AI-ассистентов к вашему сайту — новое SEO в эпоху LLM

108
Время чтения: 20 мин
Обновлено: 14.10.2025
Сохранить статью:
llm

Содержание статьи

1. Что такое llm.txt и зачем он нужен

С момента массового внедрения AI-ассистентов в поисковые системы и браузеры (ChatGPT, Gemini, Perplexity, Brave AI) сайты стали попадать в индексацию и обработку языковыми моделями, минуя традиционные поисковые алгоритмы.

Появился llm.txt — простой текстовый файл, похожий на robots.txt, но специально для AI-ботов. Он позволяет:

  • Разрешить/запретить краулинг разделов

  • Запретить обучение на контенте (NoTrain)

  • Запретить включение в ответы моделей (NoIndex)

  • Ограничить частоту запросов (Crawl-delay)

Важно: многие популярные AI-краулеры (GPTBot, ClaudeBot, CCBot, PerplexityBot) уже учитывают llm.txt.

2. Почему llm.txt устаревает

Хотя llm.txt работает, он ограничен по функциональности:

  • Нет поддержки структурированных политик

  • Неясна юридическая сила директив (например, NoTrain)

  • Отсутствует поддержка сложных условий (например, по географии)

Поэтому с 2024 года начали внедрять новый форматllm.jsonl и TDM-политику в формате JSON-LD по стандарту W3C TDMRep (Text and Data Mining Reservation Protocol).

3. Что такое llm.jsonl — формат нового поколения

llm.jsonl — это машино-читаемый файл в формате JSON Lines (по одной политике на строку).

Каждая строка — JSON-объект, описывающий:

  • user-agent (бота)

  • путь (location)

  • доступ (allow)

  • разрешение на обучение (train)

  • разрешение на индексирование (index)

  • задержку между запросами (crawl_delay)

🔍 Пример строки в llm.jsonl:

{"user_agent":"*", "location":"/blog/", "allow":true, "train":true, "index":true, "crawl_delay":5}

4. Чек-лист: как внедрить llm.txt и llm.jsonl вместе

✅ Шаг 1: Аудит сайта
– выделите публичный, приватный, премиум-контент
– решите, что можно показывать и использовать для обучения

✅ Шаг 2: Создание llm.txt

User-agent: *
Allow: /blog/
Disallow: /admin/
NoTrain: /premium/
NoIndex: /drafts/
Crawl-delay: 5

✅ Шаг 3: Создание .well-known/llm.jsonl

{"user_agent":"*", "location":"/blog/", "allow":true, "train":true, "index":true, "crawl_delay":5}
{"user_agent":"*", "location":"/premium/", "allow":true, "train":false, "index":false}

✅ Шаг 4: Добавьте ссылку в <head> сайта

<link rel="tdm-reservation" href="/.well-known/llm.jsonl">

✅ Шаг 5: Проверка

curl https://example.com/llm.txt
curl https://example.com/.well-known/llm.jsonl

5. Шаблоны для разных типов сайтов

Блог

User-agent: *
Allow: /blog/
NoTrain: /blog/premium/
NoIndex: /blog/drafts/
{"user_agent":"*", "location":"/blog/", "allow":true, "train":true, "index":true}
{"user_agent":"*", "location":"/blog/premium/", "train":false, "index":false}

SaaS / продукт

User-agent: *
Allow: /docs/
Disallow: /app/
NoTrain: /pricing/
{"user_agent":"*", "location":"/docs/", "allow":true, "train":true}
{"user_agent":"*", "location":"/pricing/", "train":false}

Медиа с paywall

User-agent: *
Allow: /news/
Disallow: /paywall/
NoTrain: /paywall/
NoIndex: /paywall/

6. Сравнение всех форматов

Формат Для кого Поддержка Юридическая сила Гибкость
robots.txt поисковые роботы 100% высокая средняя
llm.txt AI-боты высокая (GPTBot, Anthropic) низкая базовая
llm.jsonl AI-боты нового поколения растущая средняя высокая
tdm-policy.json (JSON-LD) юрисдикции и правозащита TDMRep (W3C, EU) высокая максимальная

7. Автоматизация через CI/CD

Храните правила в YAML, из него генерируйте оба файла:

rules:
- user_agent: "*"
location: "/blog/"
allow: true
train: true
index: true
crawl_delay: 5
- user_agent: "*"
location: "/premium/"
allow: true
train: false
index: false

8. Юридическая перспектива: TDM & EU

По директиве EU 2019/790, владельцы контента имеют право отказаться от использования их данных в машинном обучении. Это закрепляется через:

  • tdm-policy.json (в формате JSON-LD)

  • HTTP-заголовок tdm-reservation: 1

  • или link rel=tdm-reservation

Это становится обязательным в Европе и рекомендованным в США и Великобритании с 2025 г.

9. Кто реально читает эти файлы

Бот Читает llm.txt Читает jsonl Уважает NoTrain
GPTBot (OpenAI) частично частично
ClaudeBot (Anthropic) ⚠️ ⚠️
PerplexityBot ⚠️ ⚠️
CommonCrawl ⚠️ ✅ (TDMRep)
Google-Extended

⚠️ — поддержка в процессе тестирования или частично реализована

10. Вывод и рекомендации

✅ Используйте llm.txt как быстрый способ контроля за краулингом и обучением.

✅ Создайте llm.jsonl в .well-known — он уже начинает поддерживаться и скоро станет стандартом.

✅ Добавьте link rel="tdm-reservation" в ваш <head>, чтобы указать политику AI-доступа.

✅ Мониторьте логи на запросы от AI-ботов — и будьте готовы к обновлению правил по мере роста их возможностей.

Вам также может понравиться
GLM-DEV представляет новый универсальный онлайн-конвертер файлов

GLM-DEV представляет новый универсальный онлайн-конвертер файлов

Повышение конверсии сайта: эффективные стратегии и техники

Повышение конверсии сайта: эффективные стратегии и техники

Зачем вашему проекту CI/CD – просто о важном (Continuous Integration/Delivery)

Зачем вашему проекту CI/CD – просто о важном (Continuous Integration/Delivery)

Как выбрать нишу для интернет-проекта: Пошаговое руководство 2025

Как выбрать нишу для интернет-проекта: Пошаговое руководство 2025

Тренды онлайн-бизнеса 2025: актуальные стратегии, практики и инструменты

Тренды онлайн-бизнеса 2025: актуальные стратегии, практики и инструменты

Безопасность веб-сайтов: как защитить свой ресурс от киберугроз

Безопасность веб-сайтов: как защитить свой ресурс от киберугроз

Онлайн-бизнес идеи: как начать успешный проект и что выбрать?

Онлайн-бизнес идеи: как начать успешный проект и что выбрать?

Как создать калькулятор стоимости подписки с изменяемыми параметрами на JavaScript

Как создать калькулятор стоимости подписки с изменяемыми параметрами на JavaScript

Что важно для UX/UI дизайна сайта? Как улучшить пользовательский опыт

Что важно для UX/UI дизайна сайта? Как улучшить пользовательский опыт

Оставить комментарий

Ваш email не будет опубликован. Обязательные поля помечены *

Поддержка

Есть вопросы? Напишите боту в Telegram.

Прокрутить вверх