Токен

Минимальная единица текста для LLM: примерно 3/4 слова в английском, меньше в русском

Категория: Основы

Сложность: Начинающий

Определение

Токен — атомарная единица текста после токенизации: слово, часть слова, знак препинания или пробел. LLM не работает с символами или словами напрямую — текст разбивается на токены, каждому присваивается числовой идентификатор.

Примерная пропорция: 1 токен ~ 3/4 слова в английском, меньше в русском (русские слова длиннее и разбиваются на больше токенов).

Зачем знать о токенах

Токены — это и единица измерения контекста, и единица тарификации:

Контекстное окно измеряется в токенах (200K у Claude, 2M у Gemini)
Оплата API — за миллион входящих и исходящих токенов
Длинные разговоры дороже — каждое сообщение добавляет токены в контекст

Стоимость токенов по моделям

Модель	Input (за 1M)	Output (за 1M)
Claude Opus 4.6	$15	$75
Claude Sonnet 4.5	$3	$15
Claude Haiku 4.5	$0.25	$1.25
GPT-4o	$2.50	$10
Gemini 2.5 Flash	$0.15	$0.60
DeepSeek V3	$0.27	$1.10

Haiku дешевле Opus в 60 раз — для черновой работы субагентов это существенная экономия.

Практические выводы

CLAUDE.md экономит токены — агент не тратит их на повторный анализ проекта
GitHub Issues через API возвращают точные данные вместо чтения всего файла
MCP-серверы занимают место в контексте описаниями инструментов (~5% окна каждый)
Планирование в чат-боте дешевле, чем сразу в Claude Code — агент не тратит токены на чтение файлов
Compact сжимает историю, но детали теряются — фиксируйте прогресс в Issues

Скорость генерации

Разные модели генерируют токены с разной скоростью:

Облачный Claude Opus: ~80 токенов/сек
Локальный DeepSeek через LM Studio: ~13 токенов/сек

Локальные модели медленнее, но данные не покидают устройство.

В курсе

Урок	Контекст
Урок 1	Введено как базовое понятие: 1 токен ~ 3/4 слова. Объясняет, почему длинные разговоры дороже
Урок 3	Экономия токенов: CLAUDE.md нужен чтобы агент не тратил токены на повторный анализ. Планирование в чат-боте экономит токены
Урок 4	Токены как ресурс: GitHub Issues vs файлы, MCP-серверы занимают контекст, Haiku дешевле Opus

Как считать токены

Примерные пропорции для оценки:

Язык	1000 токенов ~
Английский	~750 слов
Русский	~500 слов
Код (Python)	~400 строк
JSON	~300 строк

Русский текст «дороже» английского — кириллические слова разбиваются на больше токенов.

Ссылки

Связанное

LLM — модель, которая обрабатывает токены
Контекст — измеряется в токенах
Compact — сжатие контекста при переполнении
CLAUDE.md — экономит токены на повторном анализе

Редактировать на GitHub →