Как устроены малые языковые модели и в чем их преимущества перед большими?

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Точность. Меньшие объемы данных и параметров у SLM не приводят к потере качества. Этому способствует тщательный отбор данных: среди них нет источников, которые ввели бы нейросеть в заблуждение. Например, недавно выпущенная модель Stable LM 2 c 1,6 млрд параметров обошла по эффективности в MT Bench алгоритм Falcon-40B, который в 25 раз больше.

Безопасность. За счет меньшего объема данных в SLM мишеней для хакерских атак тоже меньше, поэтому риски взлома и утечки данных также гораздо ниже. Данные максимально фильтруют от нерелевантного и некачественного контента, добиваясь меньшего объема. В результате снижаются риски неэтичного или вредоносного использования.

Доступность данных. Если вы не Google или Microsoft, собрать огромные массивы данных будет сложно и очень дорого. Особенно если учесть, что многие данные из Сети содержат чувствительную информацию или защищены авторским правом — например, научные исследования или книги. А значит, возникают еще и юридические тонкости. В случае с SLM на очистку прав требуется гораздо меньше ресурсов, а риски нарушений сводятся к нулю. В LLM массивы данных огромны, но распределены неравномерно: так, огромную долю составляют материалы на английском языке. В SLM за счет более качественного отбора можно получить данные на разных языках, чтобы результаты были точнее и объективнее.

Простота и удобство. С малыми моделями проще работать как техническим специалистам, так и обычным пользователям. В отличие от LLM их можно разворачивать даже на обычных ПК или смартфонах, моментально настраивая и изменяя для конкретных задач.

Скорость. Благодаря небольшим объемам SLM выдают результат гораздо быстрее, что особенно важно там, где нужны аналитика и прогнозы в режиме онлайн.

Прозрачность. Более простая архитектура и меньший объем данных позволяют лучше понимать, как работает конкретная модель, и предсказывать результаты.

Какие SLM есть на рынке

Основные разработки принадлежат тем же компаниям, которые уже выпустили LLM:

GPT-Neo и GPT-J — это уменьшенные версии моделей GPT от OpenAI с 125 млн и 6 млрд параметров соответственно, которые достаточно универсальны и при этом работают с ограниченными вычислительными ресурсами.

DistilBERT, BERT Mini, Small, Medium и Tiny — мини-версии большой модели BERT для обработки естественного языка (NLP) с разным количеством параметров: от 4,4 млн до 41 млн (у большой модели их от 110 млн до 340 млн). Есть также MobileBERT, разработанная для мобильных устройств.

Orca 2 — малая модель от Microsoft, которая базируется на большой Orca с 13 млрд параметров, но с оптимизированными и улучшенными данными, а также тонкой настройкой Llama 2.

Phi 4 — еще одна разработка Microsoft с 14 млрд параметров. Легко адаптируется для развертывания как в облаке, так и на локальных ресурсах. Ее сильные стороны — точное понимание языка и контекста, логичность рассуждений и математические методы анализа.

T5-Small — модель на базе TexttoText Transfer Transformer (T5) от Google.

Qwen2.5 — модель с 0,5 млрд, 1,5 млрд и 3 млрд параметров. Модель оптимальна для локального использования. Есть специальные версии для математических задач и программирования.

RecurrentGemma — еще одна SLM от Google с 2,2 млрд параметров, которая генерирует текст в режиме онлайн на устройствах с ограниченными ресурсами, включая смартфоны, ПК и IoT.

Каковы перспективы малых моделей

Хотя пока малые модели отстают от больших в технической части, за счет экономичности и безопасности они будут пользоваться спросом. А значит, активно развиваться.

В отличие от LLM у SLM больше шансов стать массовыми и найти применение, в том числе в системах интернета вещей: в рамках «умного» дома, транспорта или цифровых двойников предприятий. Для последних решающий фактор — большая прозрачность и безопасность, так как на крупных производствах и внутри корпораций действуют жесткие требования конфиденциальности и защиты данных.

В ближайшей перспективе SLM станут доступны на большинстве смартфонов. В числе первых — Gemini Nano от Google, первая малая модель для смартфонов на базе Android, которая уже есть в Pixel 8 Pro. Apple, в свою очередь, выпустила OpenELM, состоящую из восьми малых моделей (от 270 млн до 3 млрд параметров), которые предназначены для смартфонов на iOS. В компании также заявили о планах внедрить модели на базе генеративного ИИ в новые версии iOS в качестве базовых инструментов.

Если говорить про конкретные задачи, то SLM могут идеально справляться там, где нужно «схватывать на лету»: додумывать задачу по первым словам, дописывать текст, переводить и исправлять ошибки прямо в процессе написания. Например, для синхронного перевода или генерации субтитров на смартфоне.

Как и с LLM, одна из самых перспективных — работа SLM с RAG (Advanced Retrieval-Augmented Generation). Это метод обучения, при котором к ответу нейросети добавляют данные из внешних источников, чтобы она ответила более полно и точно. Например, когда пользователь спрашивает про курс доллара, а нейросеть воспринимает это абстрактно. Тогда в ее ответ можно добавить курс доллара на текущий момент.

Еще одна перспективная сфера для малых моделей — персональные ИИ-ассистенты. Они уже появляются в виде мобильных устройств без привычных нам интерфейсов (а иногда даже без экрана) и умеют делать почти все: от заказа столика в ресторане до управления «умным» домом. Для бизнеса они могут составлять письма и сообщения, следить за качеством обслуживания клиентов и эффективностью сотрудников.

SLM и LLM

Если обобщить, то различия между большими и малыми моделями выглядят так:

SLM

Простая сеть с меньшим количеством параметров.
Хватает базовых ресурсов и мощностей.
Используют меньшие по размеру и более релевантные наборы данных.
Предназначены в первую очередь для простых задач в конкретной области.
Обучение занимает несколько недель.
Легко адаптируется под новые потребности.
Работает на обычных ПК и даже смартфонах.

LLM

Для обучения требуются обширные и разнообразные наборы данных.
На обучение модели уходит несколько месяцев.
Огромные сети с миллиардами параметров.
Нужны самые передовые вычислительные мощности и ресурсы.
Подходят для широкого круга задач, в том числе NLP* и создании творческого контента

*NLP (Natural Language Processing, или обработка естественного языка) — область ИИ, которая занимается взаимодействием между компьютерами и человеческим языком. Задачи NLP включают анализ, понимание, генерацию и манипулирование текстом и речью.

Низкая адаптивность: настройка требует дополнительных ресурсов.
Требует специализированного оборудования или облачных сервисов.