Когда датасеты для обучения ИИ могут быть признаны охраняемыми базами данных

Когда датасет для ИИ становится объектом права?

Дарья Королькова

В предыдущей статье мы уже выяснили, что простая «свалка» данных и продуманная база данных с точки зрения закона – две большие разницы. Защиту получает не всякий массив информации, а результат творческого труда или существенных инвестиций. Но что происходит, когда мы переходим в мир искусственного интеллекта? В мир, где данные – это не просто архив, а «топливо» для обучения нейросетей?

Современный вызов на стыке технологий и права звучит так: являются ли датасеты для обучения ИИ охраняемыми базами данных, и где проходит та самая грань между творческим отбором, который защищает закон, и бездушной машинной генерацией выборки?

Российское законодательство определяет искусственный интеллект не как единый объект, а как «комплекс технологических решений». Ключевыми моментами этого комплекса являются программы для ЭВМ (алгоритмы) и данные, на которых эти программы обучаются (датасеты).

С программой для ЭВМ все относительно понятно, а вот датасеты – это «серая зона». Датасеты, выступающие «топливом» для ИИ, зачастую представляют собой сложно структурированные, масштабные и дорогостоящие в формировании составы данных.

Р. Кало говорит о том, что «у тех, кто занимается машинным обучением, по сути, есть три способа добывать достаточную информацию. Они могут сами создавать базы данных, они могут покупать данные или они могут идти более простым путем, например, используя открытые данные…»1. Данные обладают не только экономической ценностью, но эта «ценность» сопряжена с «сотворчеством» обладателей данных и бизнеса. В связи с этим возникает закономерный вопрос о возможности их охраны в рамках права интеллектуальной собственности, в частности, как баз данных. Согласно ст. 1334 ГК РФ, изготовителю базы данных, создание которой потребовало существенных затрат, принадлежит исключительное право на нее.