Исследователи из Columbia Engineering Колумбийского университета разрабатывают алгоритм компьютерного зрения для прогнозирования поведения людей путем анализа языка тела в видео. Технология может найти свое применение в автономных транспортных средствах и при создании роботов.
Кадры из фильмов «Правила виноделов» и «Доктор Мамфорд»
Систему обучили использовать ассоциации более высокого уровня между людьми, животными и объектами.
«Наш алгоритм — это шаг к тому, чтобы машины могли лучше предсказывать поведение человека и, таким образом, лучше координировать свои действия с нашими», — отмечает Карл Вондрик, доцент кафедры информатики Колумбийского университета, руководивший исследованием. — «Наши результаты открывают ряд возможностей для сотрудничества человека и робота, автономных транспортных средств и вспомогательных технологий».
По словам исследователей, их метод прогнозирования событий на несколько минут вперед стал лучшим в своем роде. После анализа тысяч часов фильмов, спортивных игр и шоу, таких как «Офис», система научилась предсказывать сотни действий, от рукопожатий до ударов кулаками. Когда она не может предсказать конкретное действие, то использует концепцию более высокого уровня, которая связывает похожие действия, например, «приветствие».
Ранее команда работала над системой, которая сможет прогнозировать одно действие за раз. Алгоритм решал, следует ли классифицировать действие как объятие, рукопожатие или даже бездействие, такое как «игнорирование». Но при высокой неопределенности модель была неспособна найти общие черты между возможными вариантами.
Аспиранты Columbia Engineering Дидак Сурис и Руоши Лю решили взглянуть на проблему долгосрочного прогнозирования под другим углом. «Не все в будущем можно предсказать», — сказал Сурис, соавтор статьи. — «Когда человек не может точно предвидеть, что произойдет, он перестраховывается и предсказывает на более высоком уровне абстракции. Наш алгоритм является первым, кто научился этой способности абстрактно рассуждать о будущих событиях». Сурису и Лю пришлось обратиться к математике. Они использовали геометрию для создания моделей искусственного интеллекта, которые организуют высокоуровневые концепции и предсказывают поведение человека в будущем.
Учитывая прошлое (первые три кадра), разные изображения в шаре Пуанкаре могут кодировать разные варианты действий. Если неопределенность высока, система предскажет абстракцию возможных вариантов, представленную как z (красный квадрат). Предполагая, что реальное будущее представлено буквой z (синий квадрат), серые стрелки воспроизводят траекторию, которой будет следовать прогноз по мере появления дополнительной информации. Розовый круг иллюстрирует увеличение общности при вычислении среднего значения двух видовых представлений (розовые квадраты).
«Прогнозирование — это основа человеческого интеллекта», — сказал Од Олива, старший научный сотрудник Массачусетского технологического института. — «Машины совершают ошибки, которых никогда не сделают люди, потому что им не хватает нашей способности рассуждать абстрактно. Эта работа является важным шагом на пути к преодолению этого технологического разрыва».
Математическая основа, разработанная исследователями, позволяет машинам организовывать события в зависимости от того, насколько они предсказуемы в будущем. Например, мы знаем, что плавание и бег — это формы упражнений. Новая методика самостоятельно учится классифицировать эти действия. Система осознает неопределенность, предлагая более конкретные действия, когда есть определенность, и более общие прогнозы, когда ее нет.
Исследователи показали и другие примеры визуализации работы системы.
По словам исследователей, этот метод может приблизить компьютеры к способности оценивать ситуацию и принимать взвешенное решение вместо того, чтобы следовать программе.
По словам Вондрика, хотя новый алгоритм делает более точные прогнозы для тестовых задач, чем предыдущие методы, следующие шаги — убедиться, что он работает вне лаборатории. Группа планирует и дальше улучшать производительность алгоритма с помощью больших наборов данных, компьютеров и других форм геометрии.
Ранее ученые из британской лаборатории искусственного интеллекта DeepMind опубликовали статью, в которой они утверждают, что настоящий искусственный интеллект можно развить не в результате формулирования и решения сложных проблем, а при соблюдении принципа вознаграждения. Авторы предполагают, что максимизации вознаграждения и опыта проб и ошибок достаточно, чтобы развить «интеллектуальное поведение» машин. Таким образом, обучение с подкреплением, основанное на максимизации вознаграждения, может привести к развитию реального искусственного интеллекта, говорят они.