Директор Tesla по ИИ Андрей Карпати представил на конференции 21 июня вычислительный кластер, разработанный для обучения алгоритмов ИИ. С ним автопроизводитель могут отказаться от радарных и лидарных датчиках на самоуправляемых автомобилях в пользу высококачественных оптических камер. По словам разработчиков, следующим шагом станет производство суперкомпьютера Dojo.
Скриншот с онлайн-выступления Андрея Карпати. Источник: techcrunch.com
Впервые о работе Tesla над суперкомпьютером Dojo заявил глава Tesla Илон Маск в 2019 году в ходе конференции Tesla Autonomy Day. По словам Маска, цель Dojo будет заключаться в том, чтобы научиться обрабатывать огромные объёмы данных, тренироваться на видео и проводить массовое автономное обучение. Иных подробностей Маск тогда не сообщал.
В августе прошлого года Маск написал в своём микроблоге о том, что работа над Dojo продолжается. Он назвал компьютер «зверем», указав что Dojo будет обрабатывать действительно огромные объёмы данных. Маск отметил, что вычислительные мощности Dojo достигнут экзафлопса FP32.
21 июня этого года прошла онлайн-конференция по компьютерному зрению и распознаванию образов (Conference on Computer Vision and Pattern Recognition, CCVPR), на которой директор Tesla по ИИ Андрей Карпати представил предшественника Dojo со следующими характеристиками:
-
720 нод по 8 NVIDIA A100 80 ГБ (5760 GPU);
-
максимальная теоретическая вычислительная мощность: 1,8 экзафлопс (720 узлов 312 терафлопс FP16-A100 · 8 GPU на узел);
-
хранилище памяти 10 ПБ по технологии NVMe со скоростью обмена 1,6 ТБ/сек;
-
640 Тбит/сек общей пропускной способности.
Карпати предположил, что этот суперкомпьютер может стать пятым в мире по мощности. Точно это установят только после прохождения теста High Performance Linpack (HPL), необходимого для зачисления в ТOP500.
Сейчас на пятом месте находится суперкомпьютер Selene на NVIDIA DGX A100 с общей вычислительной мощностью 63,5 петафлопса по тесту HPL. Tesla использует тот же ускоритель, каждый узел которого — 8 штук A100 — обеспечивает около 113,3 терафлопса по HPL. Если экстраполировать, то набор Tesla 720 нод по 8 штук А100 способен выдать максимальную мощность в 81,6 петафлопс по HPL, что вытеснит Selene с пятого места в рейтинге.
На следующей неделе должно выйти обновление списка мощнейших компьютеров Top500, в котором в этот раз может оказаться Tesla. Стоит стоит отметить, что в этот рейтинг часто не включают корпоративные устройства из-за невозможности проверить их характеристики в силу коммерческой тайны.
Сетевой коммутатор суперкомпьютера Tesla, скриншот видеопрезентации
С суперкомпьютером Tesla планирует кардинально изменить подход к разработке автономных автомобилей. Сейчас для разработки навигационной системы компания всё ещё использует радарные и лидарные датчики. Они требуют подробные карты местности, по которой будет ездить автомобиль, включая мельчайшие подробности о разметке, полосах движения, знаках и прочих связанных с дорогой объектов. Инженеры Tesla хотят полностью заменить их на высокоточные оптические камеры и машинное зрение.
Для реализации этой идеи алгоритмы ИИ должны работать с соответствующими человеку скоростями. Карпати утверждает, что это можно сделать, решив проблему с контролируемым обучением. На дорогах много неожиданных и меняющихся факторов, к которым не привык ИИ. Для его обучения требуется сбор большой базы данных и ручная маркировка целевых факторов окружающей среды, что отнимает много времени. Поэтому инженеры Tesla внедрили автоматическую маркировку и испытали её в полевых условиях.
В ходе экспериментов Tesla установила по периметру автомобиля восемь камер, снимающих со скоростью 36 кадров в секунду. Разработанный суперкомпьютер с нейросетью собрал миллион видеороликов по десять секунд каждый. Нейросеть в автоматическом режиме обозначила шесть миллионов объектов с их глубиной, скоростью и ускорением. В общей сложности вся информация заняла 1,5 ПБ памяти. Несмотря на колоссальные объёмы собранной и обработанной информации, этого пока недостаточно для надёжного автономного вождения на основе машинного зрения.
Карпати рассказал, что компания продолжает вести работу над суперкомпьютером, но пока не готова раскрывать каких-либо подробностей. Из твита Илона Маска известно лишь то, что Dojo будет работать на собственных ускорителях Tesla с проприетарной архитектурой, а не на коммерчески доступных кластерах GPU. Также Маск пообещал, что Dojo будет доступен в качестве веб-сервиса для обучения ИИ, как только компания разберётся с ошибками.