Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

Нереальная любовь Нереальная любовь

Как и почему «эмоциональные» чат-боты стали заменять настоящих партнеров

РБК
Автономный шестилапый робот «MICROBRO» Автономный шестилапый робот «MICROBRO»

Как создать ровер, который сам везет ваш багаж туда, куда вам нужно?

Наука и техника
Сезон слабого зернового экспорта Сезон слабого зернового экспорта

Основная причина сокращения поставок зерна по итогам сезона 2024/25

Агроинвестор
Чёрные мысли на белом снегу Чёрные мысли на белом снегу

Рассказ Елены Ворон «Чёрные мысли на белом снегу»

Наука и жизнь
Земля на стыке гипотез Земля на стыке гипотез

Земля в процессе своего развития расширялась или сжималась?

Знание – сила
Рыбный день Рыбный день

Рыба — один из древнейших символов в ювелирном искусстве...

Y Magazine
Откуда что пошло на флоте Откуда что пошло на флоте

Повседневная жизнь на парусном военном корабле XVIII века

Наука и техника
Гелий Гелий

Известно, что каждый элемент имеет свой, только ему одному принадлежащий спектр

Наука и жизнь
Скелетные мышцы самолета – система управления Скелетные мышцы самолета – система управления

Зачем самолетам демпферы, гидроусилители, закрылки и предкрылки?

Наука и техника
О чем молчат рекорды HoReCa О чем молчат рекорды HoReCa

Будут ли все последствия смещения потребления с кухни в ресторан положительными?

Агроинвестор
Пустые кресла и забытые письма: одиночество как экспонат Пустые кресла и забытые письма: одиночество как экспонат

Мы приезжаем в музей смотреть не на экспонаты, а внутрь себя

Знание – сила
Музей как увлечение Музей как увлечение

Единственный в своем роде: музей при Институте космических исследований РАН

Знание – сила
Главное – остаться незамеченным Главное – остаться незамеченным

В чем состоит военная (а возможно, и не только) хитрость стелс-технологии?

Наука и техника
Посвящено Беатриче Посвящено Беатриче

Данте обнаружил, осознал, как мало он знает

Наука и жизнь
Установка для очистки отработанных масел УОМ-3М(100) Установка для очистки отработанных масел УОМ-3М(100)

Как установка УОМ-3М(100) очищает отработанное моторное масло

Наука и техника
Под ливнем наград Под ливнем наград

История создания кастомной яхты Benetti Kasper 7

Y Magazine
Дейнотерий – слон с берегов Дона Дейнотерий – слон с берегов Дона

Слоны – одни из самых стабильных в эволюционном плане животных...

Наука и техника
«Мы уже не живем в своей колыбели» «Мы уже не живем в своей колыбели»

Чем дышит и живет Институт космических исследований РАН?

Знание – сила
От золота к бриллиантам От золота к бриллиантам

Суперъяхта Diamond Binta — первая яхта, построенная на платформе T580

Y Magazine
Изумрудный истребитель Изумрудный истребитель

Какой рыбак не знает зимородка, этого красавца в изумрудно-синем камзоле?

Наука и жизнь
Величавый коровяк Величавый коровяк

Величавый коровяк: высокий, стройный, мощный, прочно вросший в землю

Наука и жизнь
Просто красота Просто красота

Дизайнер Кристиан Гранде — о творческом пути в яхтенном дизайне

Y Magazine
О колокольчиках в саду О колокольчиках в саду

Оказывается, не все колокольчики голубые и не у всех венчики похожи на колокола

Наука и жизнь
От Шагала до мурала От Шагала до мурала

Арт-маршрут от Ниццы до Перпиньяна, достойный целых каникул

Y Magazine
Весна императора Весна императора

Цезарь — политик-хищник, с чьим именем неотрывно связана Римская империя

Знание – сила
Терраса с видом на море Терраса с видом на море

Как выглядит Majesty 112 Terrace, продолжающая концепцию яхт Majesty

Y Magazine
Кадровый агропотенциал Кадровый агропотенциал

Роль государства и бизнеса в решении проблемы дефицита персонала

Агроинвестор
Банановые перспективы российских субтропиков Банановые перспективы российских субтропиков

Инвесторы хотят импортозаместить экзотические фрукты

Агроинвестор
Стимулы вместо принуждения Стимулы вместо принуждения

Чем биржевая торговля сельхозпродукцией может быть интересна бизнесу

Агроинвестор
Эра литий-ионных аккумуляторов Эра литий-ионных аккумуляторов

Почему ученые трудятся над тем, чтобы повысить безопасность батареек

Наука и техника
Открыть в приложении