Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

Китайский с нуля Китайский с нуля

Сложно ли выучить новый язык и как это сделать самостоятельно

РБК
Премиальный минимализм Премиальный минимализм

Эта ванная — пример идеального премиального минимализма

Идеи Вашего Дома
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Творчество Аркадия и Бориса Стругацких в контексте развития научных взглядов

Наука и жизнь
День, когда родился новый мир День, когда родился новый мир

2 сентября – день, когда победа не завершила войну, а изменила ее форму

Знание – сила
Санчо Панса языка Санчо Панса языка

На курсах литературного мастерства учат не разводить словесные кружева

Seasons of life
Светлая сила Светлая сила

Что такое фотовольтаические системы и из чего они состоят?

Y Magazine
Современный баланс Современный баланс

Проект этой квартиры призван воплотить идею уютного и функционального жилья

Идеи Вашего Дома
Очищают ли растения воздух в доме? Очищают ли растения воздух в доме?

Как комнатные растения могут избавить нас от избытка углекислого газа

Наука и жизнь
Рим триумвиров Рим триумвиров

Враги Цезаря, Помпея и Красса простецки звали эту троицу «трехглавым чудовищем»

Знание – сила
Урожаи вырастут на поливе Урожаи вырастут на поливе

Что сдерживает распространение ирригационных технологий

Агроинвестор
День мира День мира

Наш проект «День мира» родился из истории, начавшейся почти сто лет назад

Seasons of life
Мерзлота не вечная: прошлое и настоящее Мерзлота не вечная: прошлое и настоящее

Чем может угрожать таяние вечной мерзлоты, к каким последствиям это приведет?

Знание – сила
Отправь меня на Луну Отправь меня на Луну

Цифра «три», похоже, стала для яхты Orion символом

Y Magazine
Лофт для гедониста Лофт для гедониста

Элементы экстерьера получили продолжение в оформлении интерьера в стиле лофт

Идеи Вашего Дома
Медовая квартира Медовая квартира

Основным акцентом в квартире, как виделось заказчикам, должен был стать цвет

Идеи Вашего Дома
Путь к свободе Путь к свободе

Ferretti Yachts 940 заменила 920 и при всем сходстве заметно от нее отличается

Y Magazine
Наша стратегия — помогать повышать прибыльность аграрного производства Наша стратегия — помогать повышать прибыльность аграрного производства

Гендиректор фирмы «Август» — о развитии и планах компании

Агроинвестор
Неприметные живые фабрики Неприметные живые фабрики

Как живые организмы синтезируют токсичные вещества

Наука и жизнь
Нарядный лаконизм Нарядный лаконизм

Автор проекта полностью переосмыслила пространство этой квартиры

Идеи Вашего Дома
Кофе, яблоки, алыча Кофе, яблоки, алыча

Дина Рубина — мастерица передавать в тексте вкусы, текстуры и запахи

Seasons of life
ESG-принципы российских агрохолдингов ESG-принципы российских агрохолдингов

Что поможет привлечь инвестиции в устойчивое сельское хозяйство?

Агроинвестор
С видом на усадьбу С видом на усадьбу

Из окон этой квартиры открывается потрясающий вид на близлежащие кварталы

Идеи Вашего Дома
Поклон Осаке Поклон Осаке

Футуристическая, эксцентричная Осака сохранила дух настоящего нонконформизма

Y Magazine
Тбилисские гости Тбилисские гости

«Наша жизнь состоит из моментов, когда ты встречаешься с друзьями»

Seasons of life
Корабль с игрушками Корабль с игрушками

Чем заняться в чартере? Вопрос на первый взгляд кажется риторическим

Y Magazine
Мягкая сила Мягкая сила

Искусствовед — о дарах и уроках Великого шелкового пути

Seasons of life
Многофакторность климата Многофакторность климата

Факторы, которые способствуют росту средней температуры в полярных областях

Знание – сила
Остаться там откуда уезжают Остаться там откуда уезжают

Как Антонио Монтальто приехал в Армению по работе, а остался из-за любви

Seasons of life
Дорогой лапши Дорогой лапши

Китайская лапша давно свернула с Великого шелкового пути

Seasons of life
Тут как тут Тут как тут

Дорога из Дербента в Махачкалу на страницах скетчбука

Seasons of life
Открыть в приложении