Что такое агент

LLM + действия + цикл — три компонента, которые превращают чат-бота в автономного помощника

Категория
Основы
Сложность
Начинающий

Определение

У всех разное определение. Вот простое:

Агент — это LLM, которая выполняет действия в цикле, пока задача не будет завершена.

Три ключевых компонента:

  • LLM — языковая модель, которая рассуждает и принимает решения
  • Действия — возможность делать вещи: вызывать инструменты, писать файлы, обращаться к API
  • Цикл — продолжает работу до завершения задачи, а не отвечает один раз

Чат-бот отвечает один раз. Агент продолжает работать.

Другие определения

Какие ходят и почему неточные:

  • «LLM с инструментами» — слишком просто. Наличие инструментов не делает что-то агентом
  • «Автономный AI, который достигает целей» — слишком размыто. Что значит «автономный»?
  • «AI, который планирует и выполняет» — ближе, но планирование не обязательно для простых агентов
  • «Система, где LLM управляет потоком» — хорошее определение. Модель сама решает, что делать дальше

Общий знаменатель: LLM за рулём — решает какие действия предпринять и когда остановиться.

Зачем нужны агенты

LLM без агентности ограничены:

  • Знания из обучающих данных (устаревшие, неполные)
  • Одноразовые ответы (нет продолжения)
  • Только генерация текста (нет реального воздействия)

Агенты могут:

  • Обращаться к актуальным данным через API, базы данных, веб
  • Работать над многошаговыми задачами
  • Реально делать вещи — создавать файлы, отправлять запросы, деплоить код
  • Восстанавливаться после ошибок и пробовать другие подходы

Разница — в agency: способности воздействовать на мир, а не только описывать его.

В чём агенты хороши

  • Рутинная интеллектуальная работа — исследование, суммаризация, обработка данных
  • Код — написание, отладка, рефакторинг
  • Многошаговые процессы — задачи, требующие нескольких инструментов последовательно
  • Исследование — «найди все X в кодовой базе и сделай Y»
  • Ассистирование — помогать продуктивнее, не заменять

В чём агенты плохи

  • Решения с высокими ставками без контроля — не давай агенту одобрять кредиты
  • Творческая работа, требующая вкуса — агент может набросать черновик, решение за человеком
  • Задачи с неясными критериями успеха — «сделай лучше» без конкретики
  • Реальное рассуждение — агенты сопоставляют паттерны, не рассуждают. Сложная логика ломается

Главный режим провала: агент уверенно делает неправильную вещь. Он не знает, чего он не знает.

Цикл агента

Каждый агент следует одному паттерну — ReAct (Reason + Act):

  Задача
    ↓
  Думает → что нужно сделать?
    ↓
  Действует → вызывает инструмент
    ↓
  Наблюдает → смотрит результат
    ↓
  Готово? — нет → обратно к «Думает»
         — да → ответ

Модель рассуждает о том, что делать. Действует. Рассуждает о том, что наблюдает. И так по кругу.

Будущее

Куда всё движется:

  • Лучшее использование инструментов — модели всё точнее выбирают и применяют инструменты
  • Длинный контекст — больше памяти значит более сложные задачи
  • Мультиагентные системы — агенты координируются с другими агентами
  • Специализация — агенты, заточенные под конкретные домены (код, исследования)
  • Лучшие ограничители — безопасные агенты, которые знают свои пределы

Траектория понятна: агенты будут справляться со всё более сложными задачами с меньшим участием человека. Но пока мы не там. Сегодняшние агенты нуждаются в присмотре.

Редактировать на GitHub →