Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

«Общий ИИ будет умнее лауреата Нобелевской премии» «Общий ИИ будет умнее лауреата Нобелевской премии»

Визионеры — о том, как технологии изменят нашу жизнь

РБК
Чтобы изучать Вселенную, надо выходить в космос Чтобы изучать Вселенную, надо выходить в космос

Институт астрономии РАН запустит УФ-обсерваторию и создаст лунную базу

Наука и жизнь
Она вышивает мечты Она вышивает мечты

Самая яркая звезда на небосклоне высокой моды Поднебесной — талантливая Гуо Пей

Y Magazine
Евпатория Евпатория

Евпатория — город, существующий во многих измерениях

Знание – сила
Устричный гриб, его собратья и однофамильцы Устричный гриб, его собратья и однофамильцы

Где растёт вёшенка и кто её лесные «однофамильцы»

Наука и жизнь
Мускулы крылатой машины – система управления Мускулы крылатой машины – система управления

Как пилот заставляет слушаться машину в десятки тонн, контролируя ее в воздухе?

Наука и техника
Космическая пыль в междупланетном пространстве Космическая пыль в междупланетном пространстве

Наука в годы войны: астроном Фесенков об астероидах и космической пыли

Наука и жизнь
Причудливая лилия кардиокринум Причудливая лилия кардиокринум

Что помогает садоводам-любителям выращивать редкий кардиокринум?

Наука и жизнь
В зоне степей и полупустынь В зоне степей и полупустынь

Сергей Богун о проблемах защиты редких степных видов

Знание – сила
Жабрей и зябра, они же пикульники Жабрей и зябра, они же пикульники

Пикульники — настоящие джентльмены среди растения, хотя и каждый со своим нравом

Наука и жизнь
Дрофа – степной реликт Дрофа – степной реликт

Все ли знают о самой крупной птице России? Это дрофа

Знание – сила
Масляное коварство Масляное коварство

Как масло для дерева может стать причиной пожара?

Наука и жизнь
Когда ещё был лес… Когда ещё был лес…

Рассказ Саши Тэмлейн «Когда ещё был лес…»

Наука и жизнь
«Дом А. Ф. Лосева» «Дом А. Ф. Лосева»

О том, как создавалась уникальная структура Дома Лосева

Знание – сила
Мост – это мир со своими законами Мост – это мир со своими законами

Наш сегодняшний разговор – не о фантастике, а о фантастических мостах

Знание – сила
Жизнь и открытия Степана Куторги: от классиков до звероящеров Жизнь и открытия Степана Куторги: от классиков до звероящеров

«Удивительные ошибки» гения: как российский ученый открыл звероящеров

Наука и техника
Мир экзопланет: что для космоса «норма»? Мир экзопланет: что для космоса «норма»?

Уже можно говорить о планетах необычных. Как выглядят «обычные» – установлено

Наука и техника
Не всякая поганка — гриб Не всякая поганка — гриб

Почему красивых и изящных водоплавающих птиц назвали поганками?

Наука и жизнь
Современные подводные лодки постройки Швеции и Нидерландов Современные подводные лодки постройки Швеции и Нидерландов

Швеция и Нидерланды: как изменилась отечественная школа подводного судостроения

Наука и техника
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Сказочная повесть — фантастика с просветительской задачей

Наука и жизнь
Рассказ солдата Рассказ солдата

Воспоминания Георгия Немчинова о войне на передовой

Знание – сила
Убить Лумумбу Убить Лумумбу

Патрис Лумумба был одним из самых мужественных лидеров своего поколения

Знание – сила
Полет Fram2 Полет Fram2

Командиром этого полета был Ван Чунь – миллионер, оплативший полет участников

Наука и техника
Социология утопии, или Почему у Стругацких в их «Мире Полудня» нет котиков и попугайчиков Социология утопии, или Почему у Стругацких в их «Мире Полудня» нет котиков и попугайчиков

Почему на Прекрасной Земле Будущего полностью отсутствуют домашние питомцы

Знание – сила
Молодой Цезарь Молодой Цезарь

Карьера Цезаря могла бы оборваться, едва начавшись, равно как и его жизнь...

Знание – сила
Мысль как вечное движение, – или «Что такое интеллигенция»… Мысль как вечное движение, – или «Что такое интеллигенция»…

Беседа с Константином Кедровым о немецком философе Гегеле

Знание – сила
Безмолвный пациент, или вакцинация в аквакультуре Безмолвный пациент, или вакцинация в аквакультуре

Кто, как и зачем вакцинирует рыб в аквахозяйствах?

Наука и жизнь
Главное – остаться незамеченным Главное – остаться незамеченным

В чем состоит военная (а возможно, и не только) хитрость стелс-технологии?

Наука и техника
Величавый коровяк Величавый коровяк

Величавый коровяк: высокий, стройный, мощный, прочно вросший в землю

Наука и жизнь
Солнце в спирали Солнце в спирали

Стеллараторы — новые фавориты в гонке за будущую термоядерную энергетику

ТехИнсайдер
Открыть в приложении