Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

Вячеслав Дубынин: «Важно помнить, что кроме цифрового мира есть мир реальный» Вячеслав Дубынин: «Важно помнить, что кроме цифрового мира есть мир реальный»

Как человеческий мозг адаптируется к цифровой реальности

РБК
В атмосфере отдыха В атмосфере отдыха

Эта маленькая, но уютная квартира находится в известном курортном месте

Идеи Вашего Дома
Курс на Канны Курс на Канны

Составляем список обязательных к посещению стендов на Cannes Yachting Festival

Y Magazine
Дом архитектора Дом архитектора

Линии судьбы наших героев пересеклись с линиями Васильевского острова

Seasons of life
История развития морских беспилотников. Часть 2 История развития морских беспилотников. Часть 2

Для чего используются беспилотные подводные аппараты

Наука и Техника
Откуда что пошло на флоте. Навигационные огни Откуда что пошло на флоте. Навигационные огни

Как на свет появились навигационные огни для опознания судов?

Наука и Техника
Философия счастья Философия счастья

Элегантная светлая квартира в Санкт-Петербурге с особенной атмосферой

Идеи Вашего Дома
Тайна Ивана Павлова Тайна Ивана Павлова

Аспекты научной биографии Ивана Павлова, которые обычно остаются за кадром

Знание – сила
«Каждый кризис открывает нам новые возможности» «Каждый кризис открывает нам новые возможности»

Людмила Михайлова о плюсах вертикальной интеграции бизнеса и миссии «Черкизово»

Агроинвестор
В светлое будущее В светлое будущее

Квартира в Тюмени обустроена с перспективой, в стильном и комфортном интерьере

Идеи Вашего Дома
Агрономы с пропеллером Агрономы с пропеллером

На полях и над полями уже вовсю работают дроны. Агродроны

ТехИнсайдер
Создана удивлять Создана удивлять

Турецкая Numarine Yachts с новой моделью Numarine 30XP

Y Magazine
Саранча толпится на улицах Саранча толпится на улицах

Для моделирования городских потоков можно использовать саранчу

Знание – сила
Зачем нужна астрохимия? Зачем нужна астрохимия?

Чем занимается астрохимия, когда и как она выделилась в самостоятельную науку

Знание – сила
Ярко и со вкусом Ярко и со вкусом

Необычная, очень солнечная по настроению квартира в ярком и цветном интерьере

Идеи Вашего Дома
Чудеса системы Сатурна: жизнь на Титане? Чудеса системы Сатурна: жизнь на Титане?

Почему на Титане можно представить только неземлеподобную жизнь?

Наука и Техника
Быстрее поездá, выше напряжение – сильнее промышленность! Быстрее поездá, выше напряжение – сильнее промышленность!

Достоинства и недостатки двух основных систем тягового электроснабжения

Наука и Техника
Грозит ли насекомым вымирание? Грозит ли насекомым вымирание?

С насекомыми в Европе не всё благополучно, и вот почему

Наука и жизнь
Как вырастить... джонджоли Как вырастить... джонджоли

Клекачки можно вырастить на участке и приготовлять джонджоли по своему вкусу

Наука и жизнь
Масличные пойдут в рост Масличные пойдут в рост

Урожай может сократиться, а цены на него — увеличиться

Агроинвестор
Творческий район Творческий район

Светлый, уютный интерьер с приятными тёплыми оттенками и яркими акцентами

Идеи Вашего Дома
Жили-были Жили-были

История наших героев похожа на сказку, но завязка в ней совсем иная

Seasons of life
На новой высоте На новой высоте

Квартира непростой архитектуры, с огромной антресолью и множеством несущих балок

Идеи Вашего Дома
«Русагро» переработает рапс в Кузбассе «Русагро» переработает рапс в Кузбассе

На будущем предприятии ГК «Русагро» планируется перерабатывать 1 млн т рапса

Агроинвестор
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Космизмом сегодня называют целый ряд философских течений

Наука и жизнь
Дикая идея Дикая идея

Итальянская верфь Wider молода, но окружена легендарными личностями

Y Magazine
Вторая планета от Солнца Вторая планета от Солнца

Верфь Heesen в июле объявила о продаже 55‑метровой яхты своему давнему клиенту

Y Magazine
Вторая сверхзвуковая Вторая сверхзвуковая

Уже в 1968 году был первый полет советского пассажирского сверхзвукового лайнера

ТехИнсайдер
В химии всегда будет работать правило октета В химии всегда будет работать правило октета

Есть ли место идеям Менделеева в современной науке, живы ли они?

Наука и жизнь
Антик с гвоздикой Антик с гвоздикой

В наше время ароматная гвоздика из драгоценного товара стала заурядной пряностью

Наука и жизнь
Открыть в приложении