Mozilla опубликовала крупнейший датасет разговорной речи с транскрипцией: 7226 часов, 54 языка

Обновлено: 3 июля 2020

Рубрика: Новости

Полтора года назад Mozilla порадовала сообщество по распознаванию речи и машинному обучению, выложив в открытый доступ крупнейший в мире набор данных Common Voice. Он включал в себя почти 1400 часов разговорной речи в маленьких фрагментах, на 18-ти языках, от более 42 тыс. пользователей. Каждый фрагмент речи сопровождался текстовой транскрипцией, то есть это готовый набор размеченных данных для машинного обучения.

Сейчас Mozilla обновила наборы данных, доведя количество языков до 54-х. Среди 14-ти новых — украинский, грузинский, чешский, польский и греческий языки.

Общий размер базы вырос до 7226 часов, из которых 5591 час уже подтверждены как валидные. Всего в наборе данных более 5,5 миллиона звуковых клипов. Средняя продолжительность клипа 4,7 секунды.

С обновлением набора данных выросло количество языков, представленных более 5000 спикерами: теперь это английский, немецкий, французский, итальянский и испанский. Для них можно сказать, что вариативность достаточно высока для построения действительно универсальной системы распознавания и синтеза речи. Демографические характеристики спикеров представлены на иллюстрации слева.

Количество языков с более чем 500 часами записи достигло семи: английский, немецкий, французский, каталонский, испанский, кабильский и руанда (киньяруанда).

В идеале Mozilla хочет, чтобы на платформе Common Voice были представлены все языки, существующие в разговорной речи на земном шаре. Теоретически, если для каждого языка будут представлены все фонемы и все слова с транскрипцией, то можно разработать идеальный универсальный переводчик с распознаванием и синтезом речи на любом языке мира.

Mozilla уже начала работать в данном направлении. Сейчас опубликован первый целевой сегмент со словами, которые обозначают цифры от нуля до девяти, а также словами «да», «нет», «эй» и «файрфокс». Данный целевой сегмент на 18-ти языках включает в себя 120 часов записи, в том числе 64 валидированных часа. Он создан усилиями более 11 тыс. контрибуторов со всего мира.

Mozilla пишет, что этот целевой сегмент поможет проверить точность их опенсорнсного движка для распознавания речи Deep Speech на разных языках.

Источник

Mozilla опубликовала крупнейший датасет разговорной речи с транскрипцией: 7226 часов, 54 языка

Скачай наше приложение на смартфон:

Служба поддержки:

По общим вопросам:

Похожие статьи

На сайт добавлен новый способ оплаты “Иностранными картами”

Отзыв лицензии у «КИВИ Банка»

Компания OpenAI убрала из условий использования запрет на использование ChatGPT в военных целях

Сколько и каким образом зарабатывают придуманные ИИ персонажи

Управление шрифтами в Gutenberg 16.7

Команда обзора плагинов WordPress выпустила для разработчиков новый инструмент проверки ошибок

Скачай наше приложение на смартфон:

Служба поддержки:

По общим вопросам: