Контекст

Рабочая память модели: всё, что LLM видит в момент генерации ответа

Категория: Основы

Сложность: Начинающий

Определение

Контекст — рабочая память модели: всё, что находится в контекстном окне в момент генерации ответа. Это и переписка, и прикреплённые файлы, и системный промпт, и результаты предыдущих ответов. Качество контекста напрямую определяет качество ответа.

Аналогия: контекст — это рабочий стол. Всё что на нём лежит — модель видит. Чего нет — для неё не существует.

Как устроен контекст

Составные части контекстного окна:

Компонент	Примерный размер	Описание
Системный промпт	~3K токенов	Невидимые инструкции от разработчика
История чата	~30K токенов	Все предыдущие сообщения
Прикреплённые файлы	~8K токенов	Документы, картинки, код
Текущий промпт	~4K токенов	Сообщение пользователя

Каждое новое сообщение (твоё и модели) занимает место. Когда места не хватает, срабатывает compact — модель пересказывает историю коротко, освобождая место. Детали при этом теряются.

Размер окна по моделям (март 2026)

Модель	Размер окна	Примерно
ChatGPT (GPT-5.4)	272K токенов (до 1M в Codex)	~700 страниц
Claude (Opus 4.6 / Sonnet 4.6)	200K токенов (до 1M в API)	~500 страниц
Gemini 2.5 Pro	1M токенов	~2500 страниц

Ключевой принцип

Чем больше заполнен контекст — тем хуже работает модель. Это не просто «забывает начало». Качество ответов деградирует по мере заполнения окна: модель начинает путать детали, пропускать инструкции, давать менее точные ответы. Даже если окно формально вмещает 200K токенов — на 150K модель работает заметно хуже, чем на 30K.

Представь: чем больше бумаг на рабочем столе — тем сложнее найти нужную.

В обычных чат-ботах (ChatGPT, Claude, Gemini) деградация происходит незаметно — модель просто начинает хуже помнить начало разговора. В агентных средах (Claude Code, Codex) compact происходит явно — видно сообщение о сжатии.

Стратегии управления контекстом

Стратегия	Что делает	Когда использовать
Новый чат	Чистый контекст с нуля	Переписка перегружена, качество упало
CLAUDE.md	Агент читает правила проекта при запуске	Всегда — экономит токены на разведку
Compact	Сжатие истории, освобождение места	Автоматически при заполнении окна
GitHub Issues	Persistent storage между сессиями	Контекст не должен теряться при рестарте
Разделение задач	Планирование в чат-боте, код в агенте	Экономия контекста агента
Максимум 2 MCP	Ограничение расширений	Каждый MCP занимает ~5% окна

Практические выводы

Чем точнее промпт — тем лучше ответ. Модель видит именно то, что ты положил на стол
Длинная переписка «съедает» место — и не просто забывается, а снижает качество всех ответов
Лучше новый чат, чем перегруженный — чистый контекст работает лучше
Фиксируй важное отдельно — файл, issue, заметка. При compact детали теряются
CLAUDE.md экономит токены — агент не тратит контекст на повторный анализ проекта
GitHub Issues как persistent storage — контекст между сессиями агента не теряется

В курсе

Урок	Контекст
Урок 1	Объяснение через аналогию с T9: контекст — дополнительная информация для модели. Студенты добавляют своё интро в метапромпт, чтобы AI задавал релевантные вопросы
Урок 3	Контекст как ресурс: CLAUDE.md экономит токены, начинать планирование в чат-боте вместо Claude Code экономит контекст
Урок 4	GitHub Issues как persistent storage для контекста между сессиями — контекст перестаёт теряться при перезапуске агента. Не более двух MCP-серверов, иначе их описания занимают 10%+ контекста

Ссылки

What is a context window? — IBM
Lost in the Middle (Liu et al., 2023) — модели хуже видят информацию в середине контекста
Context Length Alone Hurts (Du et al., 2025) — длина контекста снижает качество на 14-85%
Context Rot (Chroma Research, 2025) — деградация на каждом инкременте длины

Связанное

Токен — единица измерения контекста
LLM — модели, которые используют контекст
Compact — сжатие при заполнении окна
Метапромтинг — вытаскивание контекста из головы
CLAUDE.md — экономия контекста через файл памяти
Управление контекстом — практический гайд

Редактировать на GitHub →