Facebook показала систему преобразования текста в речь в реальном времени на CPU

Facebook создала и развернула нейронную систему преобразования текста в речь на серверах ЦП. Компания заявила, что система обеспечивает высокую эффективность вычислений и качество звука на уровне человеческой речи.

Если предыдущие системы обычно использовали графические процессоры или другое специализированное оборудование для создания высококачественной речи, то в данном случае задействованы CPU. При этом скорость синтеза выросла в 160 раз (одна секунда звука за 500 миллисекунд).

В Facebook считают, что новая нейронная система преобразования текста в речь TTS с современным качеством звука может играть важную роль в создании и масштабировании голосовых приложений, которые будут более человечными и приятными в использовании.

Система объединяет четыре компонента:

Лингвистический интерфейс преобразует входной текст в последовательность лингвистических функций, таких как фонемы и типы предложения. Модель просодии предсказывает ритм и мелодию для создания выразительности. Акустическая модель генерирует спектральное представление речи. Наконец, нейронный вокодер генерирует речевой сигнал 24 кГц, обусловленный просодией и спектральными характеристиками.

Модели посодии нужно всего 30–60 минут обучающих данных для разработки нового стиля голоса.

В акустической модели использовали 13-мерные характеристики MFCC, связанные с основной частотой и 5-мерной периодичностью.

Нейронный вокодер включает сверточную нейронную сеть, которая увеличивает (или расширяет) входные векторы объектов от частоты кадров (около 200 предсказаний в секунду) до частоты дискретизации (24 000 предсказаний в секунду). Плюс, в него входит рекуррентная нейронная сеть, похожая на WaveRNN, которая синтезирует аудиосэмплы авторегрессивно (или по одному сэмплу за раз) со скоростью 24000 штук в секунду.

Авторегрессионная природа нейронного вокодера требует генерации сэмплов в последовательном порядке, что делает синтез в реальном времени серьезной проблемой. Когда стартовал эксперимент Facebook, базовая система могла работать только на скорости синтеза около 80 в реальном времени (RTF) на одном ядре ЦП, генерируя одну секунду звука за 80 секунд. Тогда компания решила внедрить оптимизацию на уровне тензора и пользовательские операторы.

Систему уже развернули на Portal, устройстве Facebook для видеовызовов, она также доступна для использования в ряде других приложений — от сервисов чтения для слабовидящих до VR.

См. также:

  • «Natural Language Processing. Итоги 2019 и тренды на 2020»
  • «Понижаем барьеры на вход в распознавание речи»
  • «Подборка статей о машинном обучении: кейсы, гайды и исследования за апрель 2020»

Источник