Дублер человека
Что такое ИИ-агенты и какие наши задачи они могут взять на себя
За последние несколько месяцев сразу несколько компаний представили новое поколение искусственного интеллекта — умных агентов, которые способны выполнять сложные задачи без вмешательства человека. «РБК Тренды» выяснили, как устроены ИИ-агенты, на что они способны и каковы их шансы трансформироваться в будущем в сверхинтеллект.
Знакомство с ИИ-агентами
ИИ-агенты — это автономные интеллектуальные системы, которые могут взаимодействовать с внешней средой, принимать решения и предпринимать действия без вмешательства человека. Такие агенты создаются с помощью специальных конструкторов и полагаются на машинное обучение и обработку естественного языка (natural language processing, NLP).
Они способны выполнять простые повторяющиеся задачи, решать сложные проблемы, а также поддерживать режим многозадачности.
Отличие ИИ-агентов от традиционных систем ИИ заключается в том, что они могут постоянно улучшать свою производительность посредством самообучения.
Несмотря на кажущуюся новизну этого термина, направление ИИ-агентов начало развиваться одновременно с первыми разработками в области искусственного интеллекта — в 1950-е годы. В эту эпоху пионер в области машинного обучения Артур Сэмюэл разработал одну из самых ранних программ, способных к самостоятельному обучению, — программу для игры в шашки.
В 1960-х и 1970-х годах появился первый разговорный ИИ Eliza, а также экспертные системы, подобные DENDRAL, которые демонстрировали способность компьютерных алгоритмов копировать человеческий опыт и использовать его для обработки данных. Однако из-за переоценки возможностей ИИ, технических ограничений и разочарования в результатах экспертных систем разработки в этой области замедлились, что привело к периоду так называемой зимы ИИ.
В 1980-х и 1990-х годах с разработкой более продвинутых методов машинного обучения стали возникать новые ИИ-системы, в том числе знаменитая Deep Blue от IBM, которая в 1997 году впервые обыграла чемпиона мира по шахматам Гарри Каспарова. В начале нового столетия достижения в области вычислительных мощностей способствовали росту глубокого обучения (deep learning), а виртуальные помощники, такие как Siri, продемонстрировали полезность ИИ для потребителей. В 2010-х годах стали развиваться агентные системы на базе обучения с подкреплением и генеративные модели, такие как GPT-2. Современные агенты, в том числе ChatGPT, уже могут поддерживать беседу и решать рабочие вопросы, а также принимать решения.
По данным аналитиков из Grand View Research, объем мирового рынка ИИ-агентов в 2024 году составил $5,4 млрд, и эти показатели будут ежегодно расти на 45% до 2030-го, достигнув отметки $50,3 млрд. Такие решения не только ускорят автоматизацию, но и предложат гиперперсонализированный клиентский опыт, а также позволят обычным пользователям делегировать ИИ-помощникам рутинные задачи.
Компоненты ИИ-агентов
Агенты ИИ различаются по реализации, но, как правило, включают в себя пять основных компонентов.
Агентно-ориентированные интерфейсы, включая протоколы и API (аппаратно-программные интерфейсы). Они используются для подключения агентов к пользователям, базам данных, датчикам и другим системам.
Модуль памяти. Включает в себя как кратковременную память для запоминания недавних взаимодействий, так и долговременную — для пополнения базы знаний.
Модуль профиля. Он определяет атрибуты агента, в том числе его роль, цели и поведенческие модели.
Модуль планирования. Он обычно использует большую или малую языковую модель для составления планов действий.
Модуль действий. Включает в себя API и интеграции, которые определяют широту действий, доступных агенту.
Как работают ИИ-агенты
Агенты ИИ используют большие языковые модели для планирования и получают доступ к подключенным системам для выполнения действий и достижения целей. Вот как это работает.
Восприятие.
Агенты ИИ постоянно собирают и обрабатывают информацию из своей среды, включая взаимодействия с пользователем, ключевые показатели производительности или данные датчиков.
Рассуждение.
Используя большие языковые модели, агенты автономно оценивают и расставляют приоритеты действий на основе своего понимания проблемы, а также целей, которых необходимо достигнуть, контекста и других параметров.
Действие.
Для выполнения задач агенты используют интерфейсы, интегрированные с корпоративными системами, инструментами и источниками данных. Эти задачи прописываются в плане, который составляет большая или малая языковая модель. Для выполнения задач агент получает доступ к корпоративным службам (таким как системы управления персоналом, системы управления заказами или CRM), а затем может делегировать действия другим агентским системам или запрашивать у пользователя разъяснения.
Кроме того, последние агенты опираются также на поисковую дополненную генерацию (RAG), которая позволяет им обращаться за данными к внешним источникам, в том числе с помощью интернета.
Этот цикл «восприятие — рассуждение — действие» считается самоподдерживающимся, поскольку инструменты агентов ИИ постоянно анализируют изменения, основываясь на прошлых взаимодействиях, и учатся на них, чтобы становиться более эффективными и результативными.
Виды ИИ-агентов
Существуют различные классификации типов ИИ-агентов. Они обычно включают в себя от пяти до семи этапов эволюции агентных систем. Одна из классификаций, предложенных известным экспертом в области стратегии данных, аналитики и искусственного интеллекта Дугласом Лейни, выглядит так.
Реактивные агенты.
Этот тип действует исключительно в данный момент, не хранит воспоминания и не учится на прошлом опыте, а также следует предопределенным правилам.
Специализирующиеся агенты.
Они обучаются на данных в довольно узких областях, часто превосходя людей в определенных задачах и помогая в работе экспертам.
Контекстно-зависимые агенты.
Эти агенты способны обрабатывать динамические сценарии, учитывая контекст, и синтезировать различные сложные данные.
Социально подкованные агенты.
Системы этого типа понимают и интерпретируют человеческие эмоции, убеждения и намерения, обеспечивая более эмпатическую обратную связь.
Саморефлексивные агенты.
Эти системы будут способны к самосовершенствованию, так как смогут анализировать собственные процессы принятия решений и улучшать свои алгоритмы автономно.
Агенты обобщенного интеллекта.
По сути, это AGI (общий искусственный интеллект), который будет способен мыслить на уровне человека.
Сверхразумные агенты.
Эта гипотетическая система будет способна превзойти человеческий интеллект во всех областях, что даст ход прорывам в науке, экономике и управлении. Идея суперинтеллекта принадлежит философу Нику Бострому. Развитие такой технологии, вероятно, потребует внедрения квантовых вычислений.
Другие эксперты условно делят ИИ-агентов на пять уровней по степени автономности — от простых агентов уровня L1 до полностью автономных уровня L5. Они относят уже существующие решения, в том числе ChatGPT от OpenAI и Gemini от Google, к уровню L1. ИИ-агент Operator, представленный в январе 2025 года компанией OpenAI, условно можно отнести к уровню L2, так как он, помимо выполнения задач, способен также самостоятельно действовать и принимать решения.
Подобными свойствами обладает и Manus — искусственный интеллект, разработанный китайским стартапом Butterfly Effect. Он позиционируется как первый в мире общий ИИагент, способный самостоятельно планировать и выполнять разнообразные задачи, минимизируя необходимость в человеческом контроле.
Как создать ИИ-агента
Компании, уже работающие с технологиями искусственного интеллекта, например Salesforce, советуют разбить работу над ИИ-агентом на несколько этапов.
Определить цель и область действия агента.
Для этого нужно перечислить проблемы или задачи, которые он должен решать. Затем нужно очертить целевую аудиторию и ее специфику.
Выбрать инструменты.
Они должны включать в себя среду разработки (набор программ для создания кода), фреймворк ИИ (готовую архитектуру модели, например TensorFlow или Pytorch), API языковой модели (например, GPT-4 от OpenAI).
Подготовить данные.
Данные для обучения могут включать в себя стенограммы (журналы чатов, тикетов поддержки или электронных писем), голосовые записи, журналы взаимодействия (данные о работе схожих ручных систем) и многое другое. Также потребуется составить на базе этих данных примеры для обучения. Провести тренировку агента ИИ на базе своих примеров.
Протестировать работу агента.
После пробного запуска на специально отобранных задачах можно проверить, как работают отдельные компоненты агента, и пригласить к его испытаниям реальных пользователей.
Запустить агента ИИ.
Для начала нужно выбрать платформу — веб-сайт, мобильное приложение или голосовой интерфейс. Затем потребуется встроить код агента напрямую или через API. Последним этапом станет настройка обратной связи от пользователей и собственных систем мониторинга.
Существуют проекты, которые предлагают уже готовые среды разработки, а также инструменты развертывания и интеграции ИИ-агентов. Такие продукты предлагают платформа Aixplain, а также Microsoft в Copilot Studio.
Кроме того, появляются платформы, которые позволяют создавать ИИагентов пользователям без навыков программирования. Например, OpenAI предлагает инструмент GPT Builder для создания ИИ-агентов на базе ChatGPT. Для этого достаточно начать беседу с чат-ботом, в ходе которой ему потребуется предоставить инструкции и обучающую информацию. Так, можно попросить ChatGPT «создать инженера-программиста, который поможет форматировать код». После этого нужно выбрать название для своего агента, задать его описание, а во вкладке «Настроить» выбрать требуемые действия — например, просмотр веб-страниц или создание изображений.
Первые ИИ-агенты
Компанией, которая первой выпустила автономного агента, стала Antropic. Осенью 2024 года она представила версию своей ИИ-модели Claude 3.5 Sonnet. Агент способен видеть экран и работать как в интернете, так и в приложениях для ПК, совершая нажатия клавиш, перемещая курсор и выполняя клики. Разработку компании уже внедряют такие платформы, как Replit, которая использует Claude 3.5 Sonnet для помощи в автономной разработке приложений Replit Agent.
В декабре 2024 года Google презентовала целое семейство ИИ-агентов. Project Mariner функционирует как экспериментальное расширение Chrome для работы только в активной вкладке браузера. Jules предназначен для разработчиков и позволяет им отлаживать рабочие процессы в GitHub — крупнейшем сервисе для хостинга IT-проектов и их совместной разработки. Наконец, Project Astra работает как универсальный помощник, который способен поддерживать разговоры на разных языках и запоминать контекст. Его внедрят в поисковик Google, а также в сервисы Lens и Maps.
Как уже говорилось, в начале этого года OpenAI представила первого полностью автономного пользовательского ИИ-агента Operator, который способен выполнять многошаговые задачи на компьютере от имени пользователя. Его интерфейс напоминает ChatGPT: достаточно ввести запрос с описанием того, какие действия нужно выполнить на веб-сайтах, и агент будет осуществлять их в реальном времени. Operator использует визуальный анализ страниц в интернете и посылает сигналы для нажатий клавиатуры, щелчков и перемещений мыши. ИИ-агент в виде предварительной исследовательской версии доступен для подписчиков тарифного плана ChatGPT Pro стоимостью $200 в месяц.
Его уже протестировали в разных задачах, например, по поиску подходящих вакансий, более выгодных интернет-тарифов, в программировании и рассылке сообщений. Однако к моменту сдачи этого материала в печать ИИ-агент справлялся успешно лишь с некоторыми из них.