Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

РБК 100 в цифрах и фактах РБК 100 в цифрах и фактах

Знакомимся с лидерами списка РБК 100

РБК
Кубиты любят тишину Кубиты любят тишину

Чем квантовый компьютер лучше классического?

Наука и жизнь
В одной лодке В одной лодке

Что нужно, чтобы начать заниматься академической греблей?

Y Magazine
Страна пяти сфер Страна пяти сфер

В Индии пять чувств используются не только по назначению, но и по максимуму

Вокруг света
«Я художник, я так вижу» «Я художник, я так вижу»

Зачем первопроходцы брали на борт профессиональных художников?

Вокруг света
«Не романтик никогда не захочет в плавание» «Не романтик никогда не захочет в плавание»

Михаил Кожухов полюбил море и не представляет теперь без него своей жизни

Y Magazine
В будущее — на лодке из полиэтилена В будущее — на лодке из полиэтилена

Мне кажется, что будущее судостроения — это осознанное отношение к экологии

Y Magazine
Тайна единорога Тайна единорога

«Дама с единорогом»: почему чувств пять, а гобеленов, посвященных им, – шесть?

Вокруг света
Маленькая выставка большого художника Маленькая выставка большого художника

Почему выставка «Алексей Моргунов. Среди первых» не только о конкретном авторе

Наука и жизнь
Аx, белый теплоход… Аx, белый теплоход…

Astondoa Ax8 — моторная яхта-кроссовер из стеклопластика

Y Magazine
За гранью человеческого За гранью человеческого

Как воспринимают мир существа, наделенные нечеловеческими чувствами?

Вокруг света
Трудности перевода Трудности перевода

Уже несколько лет верфи мира исследуют пути избавления от карбонового следа

Y Magazine
Про лукавые орхидеи и цветочное царство Про лукавые орхидеи и цветочное царство

Какие уловки придумали растения для привлечения представителей животного царства

Наука и жизнь
Палитра вкусов Палитра вкусов

Гастрономический туризм в Японии – особое времяпрепровождение

Вокруг света
Зерновые не стали доходнее Зерновые не стали доходнее

Итоги зерновой отрасли первой половины сезона 2024/25

Агроинвестор
Под покровительством Ньёрда Под покровительством Ньёрда

Какой Njörd 30 Cabin во время теста? Об этом бренде пока знают немногие

Y Magazine
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Как в научной фантастике появился сюжет о затерянных мирах

Наука и жизнь
Британская жемчужина Британская жемчужина

О яхте Pearl 82 без пафосных слов

Y Magazine
Полный литий Полный литий

Есть ли способы продлить жизнь литиевому аккумулятору в мобильном телефоне?

Наука и жизнь
Вода королевы Вода королевы

О некоторых удивительных ароматах и ингредиентах раньше сочиняли легенды

Вокруг света
Между войной и Великой депрессией Между войной и Великой депрессией

Мир после Первой мировой войны продолжал меняться с непривычной людям скоростью

Вокруг света
Перекрестье чувств Перекрестье чувств

Разбираемся, что такое синестезия – загадочная способность к смешению чувств

Вокруг света
Разноцветные «снежки» Разноцветные «снежки»

Пухлые белоснежные ягоды этого кустарника, напоминающие снежки, знакомы многим

Наука и жизнь
«Я верю в молочку» «Я верю в молочку»

Владислав Чебурашкин о своем подходе к бизнесу и потреблении молочных продуктов

Агроинвестор
Звуковое сопровождение Звуковое сопровождение

«Голос моря», стоячие волны, поющие пески, шепчущие стены и эхо

Вокруг света
Эволюция агрохолдингов Эволюция агрохолдингов

Российский сельскохозяйственный бизнес адаптировался к вызовам времени

Агроинвестор
Акцент на разумную бережливость Акцент на разумную бережливость

Торговые сети приспосабливаются к изменению потребительского поведения

Агроинвестор
Спать надо всем Спать надо всем

Почему важно изучать сон водных млекопитающих?

Наука и жизнь
История необычного гибрида спиреи: от сада XIX века до природных популяций История необычного гибрида спиреи: от сада XIX века до природных популяций

История гибрида, обнаруженного в природе спустя столетие после его создания

Наука и жизнь
Низкие цены сдержали рост экспорта Низкие цены сдержали рост экспорта

В натуральном выражении поставки продукции АПК увеличились

Агроинвестор
Открыть в приложении