Токен

Минимальная единица текста для LLM: примерно 3/4 слова в английском, меньше в русском

Категория
Основы
Сложность
Начинающий

Определение

Токен — атомарная единица текста после токенизации: слово, часть слова, знак препинания или пробел. LLM не работает с символами или словами напрямую — текст разбивается на токены, каждому присваивается числовой идентификатор.

Примерная пропорция: 1 токен ~ 3/4 слова в английском, меньше в русском (русские слова длиннее и разбиваются на больше токенов).

Зачем знать о токенах

Токены — это и единица измерения контекста, и единица тарификации:

  • Контекстное окно измеряется в токенах (200K у Claude, 2M у Gemini)
  • Оплата API — за миллион входящих и исходящих токенов
  • Длинные разговоры дороже — каждое сообщение добавляет токены в контекст

Стоимость токенов по моделям

МодельInput (за 1M)Output (за 1M)
Claude Opus 4.6$15$75
Claude Sonnet 4.5$3$15
Claude Haiku 4.5$0.25$1.25
GPT-4o$2.50$10
Gemini 2.5 Flash$0.15$0.60
DeepSeek V3$0.27$1.10

Haiku дешевле Opus в 60 раз — для черновой работы субагентов это существенная экономия.

Практические выводы

  • CLAUDE.md экономит токены — агент не тратит их на повторный анализ проекта
  • GitHub Issues через API возвращают точные данные вместо чтения всего файла
  • MCP-серверы занимают место в контексте описаниями инструментов (~5% окна каждый)
  • Планирование в чат-боте дешевле, чем сразу в Claude Code — агент не тратит токены на чтение файлов
  • Compact сжимает историю, но детали теряются — фиксируйте прогресс в Issues

Скорость генерации

Разные модели генерируют токены с разной скоростью:

  • Облачный Claude Opus: ~80 токенов/сек
  • Локальный DeepSeek через LM Studio: ~13 токенов/сек

Локальные модели медленнее, но данные не покидают устройство.

В курсе

УрокКонтекст
Урок 1Введено как базовое понятие: 1 токен ~ 3/4 слова. Объясняет, почему длинные разговоры дороже
Урок 3Экономия токенов: CLAUDE.md нужен чтобы агент не тратил токены на повторный анализ. Планирование в чат-боте экономит токены
Урок 4Токены как ресурс: GitHub Issues vs файлы, MCP-серверы занимают контекст, Haiku дешевле Opus

Как считать токены

Примерные пропорции для оценки:

Язык1000 токенов ~
Английский~750 слов
Русский~500 слов
Код (Python)~400 строк
JSON~300 строк

Русский текст «дороже» английского — кириллические слова разбиваются на больше токенов.

Ссылки

Связанное

  • LLM — модель, которая обрабатывает токены
  • Контекст — измеряется в токенах
  • Compact — сжатие контекста при переполнении
  • CLAUDE.md — экономит токены на повторном анализе
Редактировать на GitHub →