Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

Креатив, минимализм и экологичность Креатив, минимализм и экологичность

Как тренды в дизайне упаковки меняют наше представление о привычных товарах

РБК
Скрытые активы игровой индустрии Скрытые активы игровой индустрии

Какие элементы компьютерных игр могут быть защищены авторским правом

Наука и техника
Пришел невод с одною тиной… Пришел невод с одною тиной…

Ученые из Института биологии внутренних вод РАН описали новый вид водорослей

Наука
Атмосфера из фтора и скалы из золота: возможное и невозможное на экзопланетах Атмосфера из фтора и скалы из золота: возможное и невозможное на экзопланетах

Могут ли где-то во Вселенной существовать планеты с атмосферой из азота и фтора?

Наука и техника
Привет из прошлого Привет из прошлого

Спускаемый аппарат межпланетной станции Космос-482 вошел в атмосферу Земли

Наука и техника
Они могут вернуться… Они могут вернуться…

Сегодня мы вспомним о видах, исчезнувших в дикой природе

Наука и техника
Возвращение из бездны Возвращение из бездны

Уникальная операция по возвращению АПЛ «Курск» из пучины

Наука и техника
Первый эсминец КНДР Первый эсминец КНДР

Вступление в строй первого многоцелевого эсминца ВМС КНДР «Чхве Хён»

Наука и техника
«Свободная страна» в колониальной Африке «Свободная страна» в колониальной Африке

Государство Либерия появилось на карте благодаря социальному эксперименту

Наука и техника
Елена Витчак: «Мы живем во времена нестандартных решений и нестандартных карьер» Елена Витчак: «Мы живем во времена нестандартных решений и нестандартных карьер»

Какие управленческие навыки станут ключевыми и почему карьера больше не линейна

РБК
Тувинская «долина царей» – кладбище вождей азиатской Скифии Тувинская «долина царей» – кладбище вождей азиатской Скифии

Археология постепенно заставляет тувинскую «долину царей» открывать свои тайны

Знание – сила
ИИ — иллюзия интеллекта? ИИ — иллюзия интеллекта?

Что же такое искусственный интеллект? Какие опасности он может таить?

Наука и жизнь
Восточное путешествие с Агатой Кристи Восточное путешествие с Агатой Кристи

Детективы, Восток и археология – всё это сошлось вместе в судьбе Агаты Кристи

Знание – сила
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Смельчаки, которые предлагали читателям космооперу с коммунистическим колоритом

Наука и жизнь
Самые быстрые Самые быстрые

Когда речь заходит о скорости, победитель может быть только один

ТехИнсайдер
Искусственный интеллект смотрит в небо Искусственный интеллект смотрит в небо

Как технологии ИИ стали единственным средством для изучения космических глубин

Наука и жизнь
Масложировая отрасль снова идет на рекорд Масложировая отрасль снова идет на рекорд

Валовой сбор масличных может превысить 34 млн т

Агроинвестор
Три кита пивной отрасли Три кита пивной отрасли

Как идет импортозамещение солода, хмеля и пивоваренного ячменя

Агроинвестор
Ненасытный интеллект Ненасытный интеллект

Создание ИИ следующих поколений столкнулось с неожиданным препятствием

ТехИнсайдер
Дроны и наездники Дроны и наездники

Краснодарская компания создала уникальный способ биологической защиты растений

Наука
Суборбитальная авиация: новый формат полетов Суборбитальная авиация: новый формат полетов

Гиперзвуковые полеты могут соединяться с суборбитальным космосом в единое целое

Наука
Переход на отечественный софт: комфорт превыше всего Переход на отечественный софт: комфорт превыше всего

Как осуществлялось импортозамещение в сфере кадастра и геодезии

Наука и техника
Редомициляция, или Переезд как по нотам Редомициляция, или Переезд как по нотам

Рост акций выше 50% и другие перемены в жизни компаний, сменивших юрисдикцию

РБК
Большие гонки Большие гонки

Что позволило России вырваться в мировые лидеры по беспилотным грузовикам

РБК
День… суслика День… суслика

Я протёр глаза и приподнялся на локте: да это же суслик!

Наука и жизнь
Рабочая схема Рабочая схема

Почему все больше молодых людей выбирают среднее профессиональное образование

РБК
Константин Романов: «ИИ-агенты превратились в стратегический актив бизнеса» Константин Романов: «ИИ-агенты превратились в стратегический актив бизнеса»

Как меняется работа человека в эпоху ИИ

РБК
«Красный» чай в «Бирюзовой чайхане» «Красный» чай в «Бирюзовой чайхане»

Ташкентец Ширяевец стал проводником поэта Есенина в мир Туркестана

Знание – сила
На каком языке говорили скифы? На каком языке говорили скифы?

Обзор книги Сергея Кулланда «Скифы: язык и этногенез»

Знание – сила
Профессиональные амбиции VS интересы компании Профессиональные амбиции VS интересы компании

Дает ли корпоративное обучение возможность развиваться руководителю?

РБК
Открыть в приложении