Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института создала алгоритм, который с помощью технологии глубокого обучения позволяет искусственному интеллекту (ИИ) использовать шаблоны человеческого взаимодействия, чтобы предсказывать, что может произойти дальше. Исследователи загружали в программу видео с примерами социальных взаимодействий людей и тестировали её, проверяя, насколько хорошо она «обучилась», чтобы быть в состоянии давать прогнозы.

Fig5

Визуальные материалы для ИИ включали шестьсот часов видео с Youtube и телевизионных сериалов. В то время как такой выбор мог показаться сомнительным, участник проекта Карл Вондрик объясняет, что одними из критериев были доступность и реализм.

«Мы просто хотели использовать случайные видео с YouTube, — сказал Вондрик. — Причиной выбора телевидения являлось то, что для нас легче было получить доступ к этим материалам, и они были достаточно реалистичными с точки зрения описания повседневных ситуаций».

Учёные представили компьютеру видео, где люди показаны за одну секунду до выполнения одного из следующих четырёх действий: обниматься, целоваться, приветствовать жестами руки и пожать руку. Искусственный интеллект был в состоянии правильно угадать в 43 процентах случаев по сравнению с людьми, которые угадывали в 71 процентах.

Наделение ИИ способностью понимать визуальные действия, подобно тому, как это делают люди, может стать предшественником разработки эффективного домашнего помощника, а также интеллектуальных камер безопасности, которые будут способны как можно раньше вызывать скорую или полицию.

Это не первая попытка прогнозирования ситуации с помощью видео, но на этот раз были достигнуты более точные результаты. Причина заключается в том, что, во-первых, новый алгоритм отличается от предыдущих попыток видео прогнозирования, в которых приоритетом была точность пиксельного представления. Он прогнозирует развитие ситуации, используя абстрактное представление, и фокусируется на важных признаках, при этом он самостоятельно обучается и использует так называемые «визуальные представления», чтобы  различать визуальные сигналы, которые играют важную роль в социальных взаимодействиях, от тех, которые таковыми не являются. Это вполне естественно для человека, но является сложной задачей для ИИ.


Добавить комментарий