Тема номера — ИИ
«Зачем искусственному интеллекту уметь думать?»
Интервью с Михаилом Биленко, «Яндекс»
«Яндекс» — основной в России разработчик технологий искусственного интеллекта (ИИ), а Михаил Биленко — главный на этом направлении человек в «Яндексе». Зимой 2017 года Михаил возглавил управление машинного интеллекта и исследований. До этого он десять лет работал в штаб-квартире Microsoft в Редмонде, где занимался фундаментальными исследованиями в машинном обучении и их внедрением во многие продукты компании. Журнал РБК расспросил Михаила Биленко о нынешнем состоянии и перспективах ИИ
— Начнем с того, что такое искусственный интеллект? В бытовом понимании это штука, которая умеет думать, строить умозаключения и так далее — в таком виде искусственный интеллект уже существует?
— Нет, но это и не ставится целью. Искусственный интеллект — это и микрофон в телефоне, распознающий речь, и приложение с камерой, которая фотографирует машину и распознает ее номер. Даже круиз-контроль в машине — это примитивный, но тоже искусственный интеллект. Он выполняет функцию, которая требуется и которую человеку выполнять больше не нужно. То есть обычно подразумевается, что функция, которую выполняет мини-искусственный интеллект, требует какой-то обработки входа и каких-то действий или решений на выходе. Функция обработки входа и решения на выходе может быть относительно простой, как с круиз-контролем: скорость померили, на двигателе обороты уменьшили или увеличили. А думает он при этом или не думает — это уже вторично, если он идеально держит машину на нужной скорости или распознает голос, в какой бы шумной обстановке он ни произносился или с невнятными словами.
— А нужно, чтобы искусственный интеллект умел думать?
— Зачем? Нужно, чтобы он делал то, что ему нужно делать. Как при этом происходит алгоритмический процесс — довольно вторично. Опять же это скорее философские, а не технические вопросы. Что такое думать? Что значит «люди думают»? Опять же какие-то входы приходят, внутри какие-то конструкции у нас внутри существуют, и если мы ничего не делаем, то называем это мыслями. Система наблюдает за дорогой, внутри происходит постоянная обработка, и если на дороге нет машин, то она их просто не фотографирует. Думает она о дороге или не думает — это риторический вопрос. Но если меняются время суток и освещение, происходит изменение детекторов и модели работы. Или распознаватель речи: он может следить за уровнем шума, и если появляется шум, то включать его подавление. Думает он о шуме или нет? В каком-то смысле думает, но правильнее сказать «реагирует».
— Так мы уйдем в философию. Но давайте так: машина ведь уже умеет самообучаться? То есть каких-то вещей она не умела или не знала, а через какое-то время она их уже знает и умеет.
— Это просто функция того, что у нее в алгоритме заложена возможность обработки данных и изменения действий. Это обучение в том смысле, что она меняет конечное поведение на основании полученных данных, то есть системы могут дообучаться, да. Повсеместно так происходит.
— Много разговоров о том, какие профессии в связи с искусственным интеллектом могут быть не нужны. Например, уже почти договорились, что машины будут писать код сами, без человека.
— Все равно те машины, которые пишут код сами, должен кто-то программировать. Пока получается, что эти машины очень сложные и для них нужно много кодеров, и рынок труда для разработчиков продолжает увеличиваться.
— Но визионеры вроде Илона Маска уже бьют набат почти, говоря, что надо регулировать искусственный интеллект, пока не стало поздно.
— У визионеров, бьющих набат, есть одно общее свойство: они никогда сами не создавали искусственный интеллект и системы, работающие на нем. В этом смысле есть большая разница между визионерами, которые пришли из этих окопов, и визионерами, которые в них не были и у которых часто довольно мистическое представление о том, что там происходит.
— То есть искусственный интеллект не может быть угрозой для людей?
— Я считаю, что опасения, о которых говорит Маск, напрасны. Действительно будут большие изменения на рынке труда, это очевидно. Вопросы о рынке труда или об этических сторонах применения систем наблюдения, безусловно, актуальны. А вопросы о пробуждении какого-то самодвижущегося интеллекта, который начинает вытеснять людей, по-моему, не актуальны и не будут актуальны.
Персональные помощники
— Будет ли у нас в ближайшем будущем персональный искусственный интеллект, как в фантастических фильмах?
— Личные помощники обычно очень контекстуальны: помощником, который напоминает о незакрытой двери, будет какая-то система, которая занимается слежением за помещением, «умный» дом, в почте есть свой помощник почты и так далее.
— Но ведь может быть создан единый помощник, который занимается всеми проблемами?
— Может быть. Но в конечном итоге под капотом этот помощник все равно является суммой всех этих мини-помощников. В этом смысле пока нет какого-то более высокоуровневого интеллекта, а есть система, которая позволяет интегрировать разных помощников под одним капотом.
— Работы над такой интеграцией сейчас ведутся?
— Все хотят этого достичь, но на практике имеет место жуткая раздробленность. На примере того же «умного» дома — даже производители лампочек и термостатов не могут договориться между собой до сих пор. Это следующий этап, но пока все на очень ранних стадиях, и интеграция помощников все еще требует очень много усилий.
— Что мешает? Столкновение коммерческих интересов?
— Нет, это скорее инженерная проблема. Системы, в которых эти помощники существуют, они довольно разные для того, чтобы начать вместе функционировать. Это как вот до сих пор нет единой зарядки для телефонов. Вопрос совместимости интерфейсов, договоренности о том, как это все работает вместе, поскольку уровень сложности очень высокий, это является главным барьером.
— А голосовые помощники типа Siri или Alexa — смогут ли они понимать человека, а не просто подставлять в ответ нужные фразы? Понимать метафоры и шутки?
— Они смогут общаться на более общие темы. И вопрос не в том, смогут ли они понимать метафоры и шутки или смогут просто красиво отвечать на них. Для слушателя главное, чтобы они уместно, правильно, красиво отвечали, а понимают они сказанное или нет — здесь мы возвращаемся к вопросу о том, что такое «думать» и «понимать». Отвечать на те сценарии, которые в них явно не прошиты? Хочется верить, что до этого им недалеко.
— Голосовые интерфейсы выглядят глобальным трендом, они всем нравятся: не нужно печатать буквы, можно просто сказать что-то машине, и она услышит.
— Они очень удобные. Это пример того, что, когда достигается определенный уровень качества, технология становится более широкой, распространенной и применяемой. То есть эффективность является главным двигателем в распространении и применении чего-то, а не тренды или что-то иное. Выигрывает то, что для людей представляется более удобным. Мне вот кажется, что так же, как распознавание речи стало легко доступным и незаметным, в ближайшие год-два то же самое произойдет с переводом.
— Что именно изменится?
— Сейчас машинный перевод часто выходит косноязычным, неправильным и требующим редакции, так же как до недавнего времени распознавание речи выходило с грубыми ошибками, которые нужно было выправлять. Но происходит резкое улучшение качества перевода, это особенно заметно в языках вроде русского — со сложной морфологией, падежами, склонениями, родами, формами. Через какое-то время мы перестанем замечать, что раньше что-то не работало или работало плохо — потому, что оно станет работать очень хорошо.
— Это относится именно к текстам или к переводу с голоса тоже?
— Это связанные вещи: есть перевод текста в текст, а есть сначала перевод голоса в текст. Улучшения в обоих компонентах складываются. Проблем, конечно, все равно останется много. Например, если одновременно говорят несколько человек, то слушающий очень хорошо умеет сфокусироваться на одном источнике или на двух или даже выхватывать по кускам, а для программ распознавания речи это все еще большая проблема.
«Очень много маленьких скачков»
— Есть ли какая-то область, в которой стоит ожидать резких улучшений?
— Все, что связано с компьютерным зрением. Пока это работает на уровне отдельных приложений, которые могут опознавать бутылку вина по этикетке и добавлять ее в коллекцию, опознавать товары по виду, или приложений, связанных с домашними камерами и безопасностью. Проникновение зрения в разные приложения довольно быстро происходит, потому что качество, которого мы начинаем достигать в зрении, позволяет его активно легко применять в разных задачах. Например, визуальный поиск — вы просто наводите телефон на что-то и получаете ответ — становится гораздо более популярным и более используемым. Голосовым ботом раньше пользовалось не так много людей, потому что качество с голосом страдало, а сейчас им пользуются многие. Точно так же будет с поиском и любыми задачами, которые решаются с помощью камеры.
— В какие сервисы «Яндекса» вы будете внедрять искусственный интеллект?
— А они уже на нем практически все (см. врез). Просто очень много всего происходит, многие изменения сами по себе небольшие, но при этом они накапливаются, накапливаются, и все сервисы становятся умнее и умнее. Как «Яндекс.Такси», который начал давать рекомендации «вам лучше доехать на такси до этой станции метро, выйти на другой станции и поехать на такси дальше». В почте модели обучения раскладывают письма по папкам: покупки, билеты и так далее. «Погода», «Перевод», «Дзен», «Карты» — все эти сервисы активно используют различные технологии искусственного интеллекта.
— А нейросети — это искусственный интеллект?
— Это один из алгоритмов машинного обучения, часть искусственного интеллекта. Важно обучение, конкретные модели — сети или деревья решений — применяются в зависимости от типа данных. В почте, кстати, давно уже машинным обучением определяют, взломщик вошел или настоящий пользователь, по множеству факторов: если решается, что взломщик, человеку уведомление приходит. Есть очень много улучшений, которые происходят совсем «под капотом», то есть какое-то улучшение в навигаторе, которое приведет к сокращению времени маршрутов. Но человек может не заметить разницы, потому что в интерфейсе ничего не поменялось. Например, в распознавании голоса у нас запуски происходят непрерывно, микрофончик улучшается каждый месяц.
— Кажется, в этом особенность новой технологической революции — она происходит как-то бесшовно, без резких скачков.
— Есть просто очень много маленьких скачков, каждый из которых недостаточно большой, чтобы о нем трубить, а по сумме они складываются в очень большое продвижение за небольшое количество месяцев или лет.
ИскИны «Яндекса»
Почти все приложения и сервисы «Яндекса» используют машинное обучение. В нейросеть или собственный алгоритм «Яндекса» CatBoost сначала в большом объеме загружают данные, затем машина создает на их основании поисковые алгоритмы или, например, алгоритмы перевода, корректируя их сообразно новым вводным или индивидуальным показателям.
«Переводчик»
Чтобы переводить, машинный интеллект должен «потребить» тысячи текстовых переводов с одного языка на другой, а затем построить алгоритмы их взаимной корреляции. Это называется статистической методикой перевода. В случае с малыми наречиями вроде идиша или марийского языка, материалов по которым мало, нейронная сеть учится на основе родственных наречий: «поглощает» ядро языка — базовые значения и понятия, известные по всем доступным текстам, а затем заполняет пробелы, используя правила родственных языков. В первом переводчике «Яндекса» было три языка: русский, украинский и английский; сейчас их 90.
«Погода»
Почасовой прогноз интенсивности осадков, зональное распределение и перемещение облаков по территории, изменение температуры в реальном времени — это наукастинг и гиперлокальный прогноз. За его точность отвечает технология «Метеум». Система собирает в себя данные радаров Росгидромета по осадкам, данные различных метеомоделей по облачности, температуре, давлении, скорости и направлении, «склеивает» их между собой и с помощью специальной формулы выделяет из массива набор признаков, который свидетельствует о дальнейшем развитии событий. Так, «Яндекс.Погода» может сообщить, например, о начале или окончании дождя в вашем конкретном районе с точностью до десяти минут.
«Карты», «Такси», «Транспорт»
Машинный интеллект, опираясь на данные со спутника, структуру улицы и дорожную ситуацию, может меньше чем за десять секунд рассчитать не только маршрут движения такси и его стоимость, но и посоветовать ближайшие места, откуда машину можно будет вызвать быстрее и дешевле. Эти же технологии сейчас «учатся» с помощью спутниковых данных опознавать, где пассажир становится пешеходом, где — водителем, а где — снова пассажиром, что позволяет прокладывать более сложный маршрут с учетом ближайших парковок. В будущем с помощью нейросети приложение сможет прокладывать маршруты с учетом смены нескольких видов транспорта, включая пересадку из такси в автобус или из личного авто в метро.
«Дзен», «Музыка», «Радио», «Маркет»
За точность советов о подходящих вам фильмах, книгах, товарах и музыки отвечают две технологии на основе машинного обучения — «Крипта» и «Диско». «Крипта» собирает и анализирует анонимизированные данные пользователей, а затем выдает портреты их «типичных представителей»: пол, возраст и примерный род занятий. «Диско» добавляет к этим данным сведения о поисковых запросах — сначала чтобы не предлагать пользователю заведомо ненужные варианты, а затем, самообучаясь, формирует предложение под конкретного пользователя.