В Nvidia показали обучение нейросетей на небольшом наборе данных

В Nvidia Research представили модель искусственного интеллекта, которая использует ограниченный набор данных для обучения генеративных нейросетей и способна подражать известным художникам.

Новую технику обучения применили к модели StyleGAN2. Ее обучили на менее чем 1,5 тыс. изображений из Музея искусств Метрополитен. Используя системы DGX для ускорения обучения, модель создала собственные картины.

Метод, называемый адаптивным расширением дискриминатора, или ADA, уменьшает количество обучающих изображений в 10-20 раз, при этом обеспечивая хорошие результаты.

Как и большинство нейросетей, GAN следовали основному принципу: чем больше обучающих данных, тем лучше модель. Обычно для их обучения требуется от 50 до 100 тысяч изображений. Но во многих случаях исследователи просто не имеют в своем распоряжении такой базы. Искусственное наращивание набора обучающих данных с помощью копий существующих изображений с искажениями приводит к тому, что GAN имитирует эти искажения, а не создает правдоподобные синтетические изображения.

Метод ADA адаптивно применяет дополнения к данным. Это означает, что объем дополненных данных регулируется на разных этапах процесса обучения, чтобы избежать переобучения GAN.

Такой метод можно применять не только в искусстве, но и в здравоохранении, например, путем создания гистологических изображений рака для обучения моделей искусственного интеллекта.
«Это означает, что люди могут использовать GAN для решения проблем, когда огромные объемы данных требуют слишком много времени или труда для изучения», — сказал Дэвид Любке, вице-президент по исследованиям графики.

Исследователи уже обращают внимание на то, что в медицинской области потенциал ИИ раскрыть сложнее. Как правило, не хватает обучающих данных, а также есть риск раскрытия конфиденциальной информации, если работа ведется, к примеру, с медицинскими картами. В Nvidia утверждают, что новый метод обучения позволит сохранить конфиденциальность.

Источник