Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

O'qishni davom ettirish uchun tizimga kiring. Bu tez va bepul.

Roʻyxatdan oʻtish orqali men foydalanish shartlari 

Tavsiya etilgan maqolalar

Глава компании «Полипласт Северо-запад» — о высоких технологиях и импортозамещении Глава компании «Полипласт Северо-запад» — о высоких технологиях и импортозамещении

О важности следовать принципам бережливого производства и ESG-повестке

РБК
Тимур и его столица Тимур и его столица

Как Тимур стал эффективным сити-менеджером

Вокруг света
Розовые горы Пенджикента Розовые горы Пенджикента

Личная и трогательная история Ани, основавшей бренд «Атлас мира»

Seasons of life
Зерновой откат Зерновой откат

Как снижение технологичности посевов повлияет на производство

Агроинвестор
Подводный меч страны Чучхе Подводный меч страны Чучхе

Военно-морские силы КНДР обладают одним из крупнейших в мире подводных флотов

Наука и техника
Север и Юг США: долгий путь к войне Север и Юг США: долгий путь к войне

Промышленная революция в Европе по-разному сказалась на южных и северных штатах

Наука и техника
Мир велик, как баобаб Мир велик, как баобаб

На скольких языках говорят африканцы?

Знание – сила
Путешествие Ленга в Томбукту Путешествие Ленга в Томбукту

Шотландец, француз и полумифический мусульманский город

Знание – сила
Болотный хлопок Болотный хлопок

Пушица — растение с мягким пушком, которое растёт на болотах

Наука и жизнь
Зеленый свет Зеленый свет

Сегодня многие верфи разобрались в том, что же такое sustainability

Y Magazine
Astondoa — имя собственное Astondoa — имя собственное

Портрет старейшей испанской верфи Astondoa Yachts: история и жизнь сегодняшняя

Y Magazine
Нечетная горбуша Нечетная горбуша

Известную рыбу горбушу следует рассматривать как два отдельных вида

Знание – сила
Дальнобойщики 2:0 Дальнобойщики 2:0

Страшно ли ехать в кабине беспилотного грузовика?

ТехИнсайдер
«Окольцованная» Земля «Окольцованная» Земля

Где планеты находят свои кольца? Могли ли они быть и у Земли?

Наука и жизнь
Река невидимой мощи – контактная сеть Река невидимой мощи – контактная сеть

На железной дороге не обойтись без систем СЦБ и рельсовых цепей

Наука и техника
ДвуАлександрие ДвуАлександрие

«ДвуАлександрие»: реформы, контрреформы, масоны, декабристы и большевики

Знание – сила
Космос начинается с Земли: метрологическое обеспечение космической техники Космос начинается с Земли: метрологическое обеспечение космической техники

Зачем на Луну сбрасывают зеркала? И как мы пользуемся достижениями метрологии?

Наука и техника
Новый рекорд Новый рекорд

23 сентября 2024 года совершил посадку аппарат космического корабля «Союз МС-25»

Наука и техника
Давид против Голиафа Давид против Голиафа

Когда началась англо-бурская война, мало кто сомневался в её исходе

Знание – сила
Философия зрения: вчера, сегодня, завтра Философия зрения: вчера, сегодня, завтра

Философия зрения начинается там, где мы перестаем доверять видимому

Знание – сила
Катастрофа, о которой забыли Катастрофа, о которой забыли

Китайская история ХХ века: с чего началась экологическая катастрофа в Юньнане?

Наука и техника
Как растения размножаются Как растения размножаются

Почему одни растения плодятся спорами, а другие семенами?

Наука и жизнь
Заговор в голове Заговор в голове

Что заставляет людей верить в конспирологию?

Вокруг света
Джон Тиндаль и уникальные свойства паров воды: физика и метафизика Джон Тиндаль и уникальные свойства паров воды: физика и метафизика

Физик-экспериментатор Джон Тиндаль и его открытие свойств водяного пара

Знание – сила
«Мы постоянно работаем над своим ростом» «Мы постоянно работаем над своим ростом»

Заместитель гендиректора «Продимекса» Вадим Ерыженский о развитии компании

Агроинвестор
Система Юпитера: рождение пожирателя миров Система Юпитера: рождение пожирателя миров

Юпитер огромен. Настолько, что сухие цифры его величия ни о чем уже не говорят

Наука и техника
Шедевр реактивного искусства Шедевр реактивного искусства

Третье поколение космических двигателей SpaceX Raptor: с прицелом на Марс

ТехИнсайдер
«Художник обидеть может каждого!» «Художник обидеть может каждого!»

Разные грани и тайны профессии от режиссера Михаила Цитриняка: конец беседы

Знание – сила
Через гены к экономической эффективности Через гены к экономической эффективности

В России создается собственная база данных для генотипирования КРС

Агроинвестор
На острове Диско найден возможный источник фосфора для возникновения первых живых организмов На острове Диско найден возможный источник фосфора для возникновения первых живых организмов

Магма могла стать источником фосфора для возникновения первых живых организмов

Знание – сила
Открыть в приложении