Контекст
Рабочая память модели: всё, что LLM видит в момент генерации ответа
Определение
Контекст — рабочая память модели: всё, что находится в контекстном окне в момент генерации ответа. Это и переписка, и прикреплённые файлы, и системный промпт, и результаты предыдущих ответов. Качество контекста напрямую определяет качество ответа.
Аналогия: контекст — это рабочий стол. Всё что на нём лежит — модель видит. Чего нет — для неё не существует.
Как устроен контекст
Составные части контекстного окна:
| Компонент | Примерный размер | Описание |
|---|---|---|
| Системный промпт | ~3K токенов | Невидимые инструкции от разработчика |
| История чата | ~30K токенов | Все предыдущие сообщения |
| Прикреплённые файлы | ~8K токенов | Документы, картинки, код |
| Текущий промпт | ~4K токенов | Сообщение пользователя |
Каждое новое сообщение (твоё и модели) занимает место. Когда места не хватает, срабатывает compact — модель пересказывает историю коротко, освобождая место. Детали при этом теряются.
Размер окна по моделям (март 2026)
| Модель | Размер окна | Примерно |
|---|---|---|
| ChatGPT (GPT-5.4) | 272K токенов (до 1M в Codex) | ~700 страниц |
| Claude (Opus 4.6 / Sonnet 4.6) | 200K токенов (до 1M в API) | ~500 страниц |
| Gemini 2.5 Pro | 1M токенов | ~2500 страниц |
Ключевой принцип
Чем больше заполнен контекст — тем хуже работает модель. Это не просто «забывает начало». Качество ответов деградирует по мере заполнения окна: модель начинает путать детали, пропускать инструкции, давать менее точные ответы. Даже если окно формально вмещает 200K токенов — на 150K модель работает заметно хуже, чем на 30K.
Представь: чем больше бумаг на рабочем столе — тем сложнее найти нужную.
В обычных чат-ботах (ChatGPT, Claude, Gemini) деградация происходит незаметно — модель просто начинает хуже помнить начало разговора. В агентных средах (Claude Code, Codex) compact происходит явно — видно сообщение о сжатии.
Стратегии управления контекстом
| Стратегия | Что делает | Когда использовать |
|---|---|---|
| Новый чат | Чистый контекст с нуля | Переписка перегружена, качество упало |
| CLAUDE.md | Агент читает правила проекта при запуске | Всегда — экономит токены на разведку |
| Compact | Сжатие истории, освобождение места | Автоматически при заполнении окна |
| GitHub Issues | Persistent storage между сессиями | Контекст не должен теряться при рестарте |
| Разделение задач | Планирование в чат-боте, код в агенте | Экономия контекста агента |
| Максимум 2 MCP | Ограничение расширений | Каждый MCP занимает ~5% окна |
Практические выводы
- Чем точнее промпт — тем лучше ответ. Модель видит именно то, что ты положил на стол
- Длинная переписка «съедает» место — и не просто забывается, а снижает качество всех ответов
- Лучше новый чат, чем перегруженный — чистый контекст работает лучше
- Фиксируй важное отдельно — файл, issue, заметка. При compact детали теряются
- CLAUDE.md экономит токены — агент не тратит контекст на повторный анализ проекта
- GitHub Issues как persistent storage — контекст между сессиями агента не теряется
В курсе
| Урок | Контекст |
|---|---|
| Урок 1 | Объяснение через аналогию с T9: контекст — дополнительная информация для модели. Студенты добавляют своё интро в метапромпт, чтобы AI задавал релевантные вопросы |
| Урок 3 | Контекст как ресурс: CLAUDE.md экономит токены, начинать планирование в чат-боте вместо Claude Code экономит контекст |
| Урок 4 | GitHub Issues как persistent storage для контекста между сессиями — контекст перестаёт теряться при перезапуске агента. Не более двух MCP-серверов, иначе их описания занимают 10%+ контекста |
Ссылки
- What is a context window? — IBM
- Lost in the Middle (Liu et al., 2023) — модели хуже видят информацию в середине контекста
- Context Length Alone Hurts (Du et al., 2025) — длина контекста снижает качество на 14-85%
- Context Rot (Chroma Research, 2025) — деградация на каждом инкременте длины
Связанное
- Токен — единица измерения контекста
- LLM — модели, которые используют контекст
- Compact — сжатие при заполнении окна
- Метапромтинг — вытаскивание контекста из головы
- CLAUDE.md — экономия контекста через файл памяти
- Управление контекстом — практический гайд