DeepMind AI представила агента искусственного интеллекта MuZero. Его обучили играть в десятки старых видеоигр Atari, шахматы и настольные игры типа Go. В отличие от предшественников, бот самостоятельно вырабатывает для себя правила игры.
Сейчас MuZero подключили к разработке алгоритма кодирования видео, который может сократить расходы YouTube.
MuZero работает на системе ИИ глубокого обучения с подкреплением — техники, в которой многоуровневые нейросети позволяют машинам обучаться новым навыкам методом проб и ошибок, получая «вознаграждение» за успех.
При разработке MuZero использовали программу DQN, которая достигла высокого уровня мастерства в видеоиграх Atari. Также были задействованы:
- AlphaGo, программа, которая победила чемпиона Go Ли-Седола со счетом 4:1 в соревновании 2016 года;
- AlphaGo Zero, которая превзошла AlphaGo по производительности в 2017 году после обучения с нуля и была ознакомлена только с основными правилами игры;
- AlphaZero, которую можно применять не только в Go, но и в шахматах и сёги.
Сообщается, что MuZero оказался немного лучше AlphaZero в игре Go, несмотря на то, что за каждый ход выполнялось меньше вычислений. Бот также превзошел R2D2 — ведущий игровой алгоритм Atari — в 42 из 57 игр, протестированных на старой консоли. Более того, он сделал это после того, как выполнил только половину тренировочных шагов.
Оба достижения указывают на то, что MuZero способен более эффективно извлекать больше информации из меньшего количества данных.
Венди Холл, профессор компьютерных наук в Университете Саутгемптона и член правительственный совет по ИИ, отметил, что новая система со временем сможет добиться «сверхчеловеческой производительности», а данная работа является «значительным шагом вперед», но при этом вызывает обеспокоенность. Он обратил внимание на то, какие последствия может иметь разработка такого бота.
В DeepMind задумались о практическом применении MuZero. Сейчас бота задействовали в изобретении нового вида сжатия видео.
Более подробная информация о способах применения MuZero появится в 2021 году. Потенциально бота можно использовать для разработки виртуальных помощников нового поколения, медицинских и поисково-спасательных технологий.
Ранее DeepMind продемонстрировала последнюю версию системы ИИ AlphaFold, которая способна давать надежные прогнозы базовой физической структуры белка за считанные дни. Прорыв в фолдинге белка признали организаторы критической оценки прогнозирования структуры белка (CASP).