Контекст

Рабочая память модели: всё, что LLM видит в момент генерации ответа

Категория
Основы
Сложность
Начинающий

Определение

Контекст — рабочая память модели: всё, что находится в контекстном окне в момент генерации ответа. Это и переписка, и прикреплённые файлы, и системный промпт, и результаты предыдущих ответов. Качество контекста напрямую определяет качество ответа.

Аналогия: контекст — это рабочий стол. Всё что на нём лежит — модель видит. Чего нет — для неё не существует.

Как устроен контекст

Составные части контекстного окна:

КомпонентПримерный размерОписание
Системный промпт~3K токеновНевидимые инструкции от разработчика
История чата~30K токеновВсе предыдущие сообщения
Прикреплённые файлы~8K токеновДокументы, картинки, код
Текущий промпт~4K токеновСообщение пользователя

Каждое новое сообщение (твоё и модели) занимает место. Когда места не хватает, срабатывает compact — модель пересказывает историю коротко, освобождая место. Детали при этом теряются.

Размер окна по моделям (март 2026)

МодельРазмер окнаПримерно
ChatGPT (GPT-5.4)272K токенов (до 1M в Codex)~700 страниц
Claude (Opus 4.6 / Sonnet 4.6)200K токенов (до 1M в API)~500 страниц
Gemini 2.5 Pro1M токенов~2500 страниц

Ключевой принцип

Чем больше заполнен контекст — тем хуже работает модель. Это не просто «забывает начало». Качество ответов деградирует по мере заполнения окна: модель начинает путать детали, пропускать инструкции, давать менее точные ответы. Даже если окно формально вмещает 200K токенов — на 150K модель работает заметно хуже, чем на 30K.

Представь: чем больше бумаг на рабочем столе — тем сложнее найти нужную.

В обычных чат-ботах (ChatGPT, Claude, Gemini) деградация происходит незаметно — модель просто начинает хуже помнить начало разговора. В агентных средах (Claude Code, Codex) compact происходит явно — видно сообщение о сжатии.

Стратегии управления контекстом

СтратегияЧто делаетКогда использовать
Новый чатЧистый контекст с нуляПереписка перегружена, качество упало
CLAUDE.mdАгент читает правила проекта при запускеВсегда — экономит токены на разведку
CompactСжатие истории, освобождение местаАвтоматически при заполнении окна
GitHub IssuesPersistent storage между сессиямиКонтекст не должен теряться при рестарте
Разделение задачПланирование в чат-боте, код в агентеЭкономия контекста агента
Максимум 2 MCPОграничение расширенийКаждый MCP занимает ~5% окна

Практические выводы

  • Чем точнее промпт — тем лучше ответ. Модель видит именно то, что ты положил на стол
  • Длинная переписка «съедает» место — и не просто забывается, а снижает качество всех ответов
  • Лучше новый чат, чем перегруженный — чистый контекст работает лучше
  • Фиксируй важное отдельно — файл, issue, заметка. При compact детали теряются
  • CLAUDE.md экономит токены — агент не тратит контекст на повторный анализ проекта
  • GitHub Issues как persistent storage — контекст между сессиями агента не теряется

В курсе

УрокКонтекст
Урок 1Объяснение через аналогию с T9: контекст — дополнительная информация для модели. Студенты добавляют своё интро в метапромпт, чтобы AI задавал релевантные вопросы
Урок 3Контекст как ресурс: CLAUDE.md экономит токены, начинать планирование в чат-боте вместо Claude Code экономит контекст
Урок 4GitHub Issues как persistent storage для контекста между сессиями — контекст перестаёт теряться при перезапуске агента. Не более двух MCP-серверов, иначе их описания занимают 10%+ контекста

Ссылки

Связанное

Редактировать на GitHub →