Мы считаем, что интернет создан ради нас, но на деле его пользователи — боты

Боты против уток. Сможет ли искусственный интеллект избавить соцсети от Fake News

Автор: Максим Момот

Мы считаем, что интернет создан ради нас, но на самом деле основные его пользователи — уже давно боты. Так, согласно исследованию компании Imperva, занимающейся вопросами кибербезопасности, еще в 2016 году число посещений сайтов программами, созданными для различных целей, превысило количество их просмотров людьми. В чем похожи и те и другие, так это в своей неразборчивости к распространяемой информации.

Люди то и дело перепощивают в соцсетях сообщения, которые считают правдой, потому что они их пугают или, наоборот, радуют. Примерно то же самое, но в целях пропаганды, делают боты — например для выведения недостоверных публикаций в топ новостей. Положить этому конец обещают разработчики платформ, способных в полуавтоматическом режиме отслеживать лживый и оскорбительный контент. Впрочем, деятельность этих платформ сама по себе поднимает моральную проблему — где разница между правдой и пропагандой?

В поисках истины

Трудно поверить, но одни из главных потенциальных клиентов платформ автоматического фактчекинга — рекламщики. «Исследования показывают, что 80% пользователей избегают покупок у брендов, присутствующих рядом с радикальным или опасным контентом», — отметил в комментарии РБК основатель и CEO нидерландского стартапа Adverif.ai Ор Леви. Компания разработала алгоритм FakeRank, позволяющий выявлять фальшивые новости. А это, в свою очередь, дает брендам возможность не размещать свою рекламу рядом с такими сообщениями в соцсетях.

Пример фальшивой новости, рядом с которой серьезному рекламодателю вряд ли захочется увидеть свои объявления, — сообщение о том, что покончившего с собой в американской тюрьме (согласно официальной версии) финансиста Джеффри Эпштейна видели живым после его смерти. FakeRank поставит такой новости высокий индекс недостоверности и не допустит размещения рядом с ней рекламных сообщений, утверждают в компании.

По словам Ора Леви, наиболее эффективный способ определения фальшивых новостей — это имитация процесса человеческих умозаключений. «Невозможно вручную проверять каждый фрагмент контента соцсетей, — говорит он. — Однако некоторые задачи, которые выполняют журналисты и люди, профессионально занимающиеся проверкой фактов, могут быть автоматизированы, что поможет увеличить масштабы этой работы».

Если ложные сообщения, которые намеренно распространяют боты, легко отловить обычным поиском (ведь тексты дословно повторяют друг друга), то фейковые новости, которые разносят люди, могут циркулировать в отличных друг от друга вариациях. Поэтому алгоритм FakeRank использует обработку естественного языка. Вердикт о ложности информации он выносит, сравнивая тексты в соцсетях и форумах с утверждениями из достоверных источников, например ведущих СМИ. Adverif.ai продает доступ к FakeRank рекламодателям, рекламным сетям и СМИ.

По схожей модели работает и лондонская компания Factmata. Как рассказал в комментарии РБК ее основатель и CEO Друв Галати, в основе технологии, которую они используют, лежит классификация текстов по различным категориям риска — оскорбления, угрозы, расистские заявления и так далее. Обнаружив в какой-либо публикации фрагменты, содержащие опасный контент, алгоритм отслеживает их перепосты и цитирование другими пользователями. Чтобы улучшить работу алгоритмов, компания сотрудничает с журналистами, исследователями и общественными организациями.

Впрочем, Factmata отлавливает не только оскорбления и угрозы: стартап, сумевший привлечь $3 млн инвестиций, утверждает, что ему удалось создать систему оценки онлайн-контента на достоверность и нормы морали. Ложь для Factmata — понятие многомерное: в частности, система оценивает в процентах вероятность того, имеет ли текст политическую ангажированность, не призывает ли к насилию и не является ли заголовок материала кликбейтным (то есть намеренно не соответствующим содержанию текста и нацеленным лишь на то, чтобы на него кликнули).

Как считает Галати, компании, которые борются с недостоверными сообщениями, могут помочь, помимо брендов, и модераторам контента. Еще одна цель — предотвратить монетизацию таких недостоверных новостей, которая может происходить, например, через продажу рекламы на желтых сайтах, зарабатывающих популярность тиражированием уток.

Выявлять фальшивые новости, которые распространяются в рамках заказных информационных кампаний, можно не только изучая их содержание. Другой способ — отслеживать скоординированное поведение ботов, продвигающих эти новости. Такую технологию разработала компания Logically, привлекшая $12,7 млн инвестиций (ее офисы расположены в Великобритании и Индии, также открывается представительство в США). Как рассказали РБК в пресс-службе компании, для определения первоисточника недостоверных сообщений Logically использует интеллектуальную поисковую систему. Она может отследить, кто именно первым запустил в сеть недостоверную информацию — в том числе вирусные видео. А вот проверку содержимого публикаций Logically решила не отдавать полностью на откуп алгоритмам — этим занимаются в том числе эксперты-люди.

Детектор лжи

На смену фальшивым текстовым новостям идут более изощренные подделки, основанные на технологии дипфейк, позволяющей накладывать одно видео на другое при помощи ИИ. Нетрудно представить, к каким проблемам может привести, например, подделка видеовыступлений глав государств. «Превращение дипфейков и синтетических медиа («роботизированных СМИ», в которых контент создается или модифицируется алгоритмами. — РБК) в оружие уже вошло в число главных угроз будущего с точки зрения кибербезопасности», — отметил в комментарии РБК Кристоф Сабо, CEO и сооснователь датской компании Defudger, занимающейся выявлением дипфейков. По его словам, по мере распространения таких технологий люди будут все сильнее теряться в лабиринте подлинных и сфальсифицированных материалов (подробнее о дипфейках — в другой статье в данном номере).

Если недостоверность видео и изображений может быть доказана чисто технически и у результатов такой проверки вряд ли может быть политический уклон (если разоблачаться будут фейки разных политических групп, а не исключительно одной), то с оценкой текстов все сложнее. «Сама идея, что есть нечто, называемое фактчекингом, и что это заменит журналистику и редактуру, и политику, и аргументацию, и субъективные решения, всегда было химерой, но это так привлекательно для индустрии технологий», — отмечал колумнист The New York Times Бен Смит. То есть оценка текстам в конечном счете все равно будет даваться людьми, что опять может вызвать подозрения в необъективности.

Как рассказал в комментарии РБК сооснователь российского сервиса Fakecheck Дмитрий Казьмин, в его компании проверки достоверности публикаций проводятся именно вручную. «ИИ сейчас может эффективно находить хейтспич, токсичные слова и картинки», — рассказывает он. По мнению Казьмина, ИИ может сильно упростить проверку, взяв на себя механическую работу, но не способен полностью заменить человека, поскольку не учитывает все нюансы текста. К тому же автоматическая проверка текстов пока совершенствуется в основном для англоязычных источников. «Все продукты с анализом текста и робожурналистикой на английском сильно опережают аналогичные продукты на русском языке, — говорит Дмитрий Казьмин. — Поэтому автоматизация русскоязычных сервисов отстает».

В качестве примера анализа, который проводит Fakecheck, можно привести опубликованный на сайте компании разбор поста в «Яндекс.Дзен», в котором со ссылкой на выдуманное сообщение «РИА Новости» утверждалось, что со 2 ноября 2020 года в Москве по решению мэра Сергея Собянина вводится пропускной режим. Чтобы опровергнуть эту информацию, Fakecheck хватило трех фактов: «Агентство «РИА Новости» не выпускало такой новости. О том, что со 2 ноября в Москве начнут возвращать пропускной режим, не говорил и мэр города. Более того, Собянин и его подчиненные неоднократно в течение октября говорили, что хотели бы в этот раз избежать жестких ограничений».

Избирательный фактчекинг

Приведенный пример с проверкой поста на «Яндекс.Дзен» — это простой случай, разоблачение утверждения, которое легко опровергнуть со ссылкой на общедоступные и достоверные первоисточники. Однако когда фактчекингу пытаются подвергнуть мнения и оценки, правдивость или ложность которых совсем не очевидна, фактчекинг сам способен превратиться в инструмент политической борьбы и манипуляций общественным мнением.

Например, стоило президенту США Дональду Трампу написать в Twitter о том, что рассылка избирательных бюллетеней по почте приведет к фальсификациям на выборах, соцсеть тут же разместила под его сообщениями ссылки на публикации, в которых утверждается обратное. И это при том, что в прессе не раз появлялись сообщения о том, что эти бюллетени находят в мусорных баках и отследить их перемещения довольно сложно. Однако фактчекеров из Twitter эти данные почему-то не заинтересовали. Прореспубликанские СМИ, кроме того, обратили внимание на то, что фактчекингом высказываний руководства Демократической партии Twitter не занимается.

Другой пример избирательного фактчекинга — многочисленные сообщения о том, что предвыборный штаб Дональда Трампа во время президентской кампании 2016 года якобы находился в сговоре с российскими спецслужбами и властями. Хотя расследование спецпрокурора Роберта Мюллера не нашло доказательств подобных обвинений, сообщения об этих связях продолжают появляться в СМИ. Они почему-то не считаются теорией заговора и не удаляются из Сети и результатов поиска.

Поэтому неудивительно, что даже в США, согласно опросу Gallup, СМИ доверяют только 40% граждан. На самом деле, если присмотреться к этому опросу, ситуация намного хуже. Общий показатель 40% получается благодаря высокому уровню доверия к СМИ среди сторонников Демпартии (73%), в то время как среди независимых избирателей (не поддерживающих постоянно ту или иную партию) этот показатель составляет 36%, а среди республиканцев — всего 10%. То есть СМИ не доверяют 90% сторонников одной из двух крупнейших партий страны.

Смогут ли компании, занимающиеся борьбой с фальшивыми новостями, вернуть доверие к информационному пространству? По данным Logically, когда компания отправляет результаты своей проверки заказчикам, те, в свою очередь, делятся этими результатами примерно со 100 людьми, многие из которых видели исходную недостоверную информацию. Поэтому компания убеждена, что восстановить доверие к информации благодаря фактчекингу вполне возможно. Но что сделать, чтобы сама «проверка фактов» не превратилась в инструмент политической борьбы? По словам Дмитрия Казьмина, чтобы вызывать доверие, фактчекинговым сервисам нужно соблюдать правила качественной, объективной журналистики. «Верить на слово нам никто не должен, смотрите по делам», — советует он. И тут искусственному интеллекту снова не обойтись без помощи единственного существа на планете, понимающего разницу между правдой и ложью, — человека.