Что такое агент

LLM + действия + цикл — три компонента, которые превращают чат-бота в автономного помощника

Категория: Основы

Сложность: Начинающий

Определение

У всех разное определение. Вот простое:

Агент — это LLM, которая выполняет действия в цикле, пока задача не будет завершена.

Три ключевых компонента:

LLM — языковая модель, которая рассуждает и принимает решения
Действия — возможность делать вещи: вызывать инструменты, писать файлы, обращаться к API
Цикл — продолжает работу до завершения задачи, а не отвечает один раз

Чат-бот отвечает один раз. Агент продолжает работать.

Другие определения

Какие ходят и почему неточные:

«LLM с инструментами» — слишком просто. Наличие инструментов не делает что-то агентом
«Автономный AI, который достигает целей» — слишком размыто. Что значит «автономный»?
«AI, который планирует и выполняет» — ближе, но планирование не обязательно для простых агентов
«Система, где LLM управляет потоком» — хорошее определение. Модель сама решает, что делать дальше

Общий знаменатель: LLM за рулём — решает какие действия предпринять и когда остановиться.

Зачем нужны агенты

LLM без агентности ограничены:

Знания из обучающих данных (устаревшие, неполные)
Одноразовые ответы (нет продолжения)
Только генерация текста (нет реального воздействия)

Агенты могут:

Обращаться к актуальным данным через API, базы данных, веб
Работать над многошаговыми задачами
Реально делать вещи — создавать файлы, отправлять запросы, деплоить код
Восстанавливаться после ошибок и пробовать другие подходы

Разница — в agency: способности воздействовать на мир, а не только описывать его.

В чём агенты хороши

Рутинная интеллектуальная работа — исследование, суммаризация, обработка данных
Код — написание, отладка, рефакторинг
Многошаговые процессы — задачи, требующие нескольких инструментов последовательно
Исследование — «найди все X в кодовой базе и сделай Y»
Ассистирование — помогать продуктивнее, не заменять

В чём агенты плохи

Решения с высокими ставками без контроля — не давай агенту одобрять кредиты
Творческая работа, требующая вкуса — агент может набросать черновик, решение за человеком
Задачи с неясными критериями успеха — «сделай лучше» без конкретики
Реальное рассуждение — агенты сопоставляют паттерны, не рассуждают. Сложная логика ломается

Главный режим провала: агент уверенно делает неправильную вещь. Он не знает, чего он не знает.

Цикл агента

Каждый агент следует одному паттерну — ReAct (Reason + Act):

  Задача
    ↓
  Думает → что нужно сделать?
    ↓
  Действует → вызывает инструмент
    ↓
  Наблюдает → смотрит результат
    ↓
  Готово? — нет → обратно к «Думает»
         — да → ответ

Модель рассуждает о том, что делать. Действует. Рассуждает о том, что наблюдает. И так по кругу.

Будущее

Куда всё движется:

Лучшее использование инструментов — модели всё точнее выбирают и применяют инструменты
Длинный контекст — больше памяти значит более сложные задачи
Мультиагентные системы — агенты координируются с другими агентами
Специализация — агенты, заточенные под конкретные домены (код, исследования)
Лучшие ограничители — безопасные агенты, которые знают свои пределы

Траектория понятна: агенты будут справляться со всё более сложными задачами с меньшим участием человека. Но пока мы не там. Сегодняшние агенты нуждаются в присмотре.

Редактировать на GitHub →