Новости

Синтез чеченской речи: работа над программной обработкой голоса и специализированных плагинов

Для системы DCTTS синтеза речи размер минимальной обучающей базы составляет 5 часов. Такая база использовалась отделом прикладной семиотики АН ЧР в 2019 году во время экспериментального обучения нейронных сетей.

В рамках разрабатываемого проекта у нас появилась возможность подготовки более качественной и объемной (20 часов речи) фонетико-акустической базы данных. Подготовленная текстовая база данных была разбита на отдельные предложения длиной не более 180 символов вместе с пробелами. Каждое предложение пронумеровано для дальнейшей порядковой аудиозаписи по соответствующей нумерации. В итоге количество предложений в текстовой и аудио базе составило 14200. Таким образом, создаваемая база данных состоит из текстового документа с предложениями и звуковых файлов в формате.wav, то есть каждому текстовому предложению соответствует аудио образец с таким же номером в базе.

Для озвучивания подготовленных предложений был привлечен профессиональный диктор женского пола с опытом работы на радио и телевидении. Запись аудио образцов производилась в программе Adobe Audition.

Следующий  этап работы над базой заключается в обработке голоса диктора и аудио файлов, проводится программистами проекта при помощи программы Adobe Audition и состоит из следующих шагов:

1. Модификация голоса диктора с целью увеличения/уменьшения громкости до комфортного для человеческого слуха уровня порядка 20 Дб. Нормализация громкости выполняется при помощи эффекта Match Loudness.

2. Шумоподавление при помощи эффекта Noise Restoration (process).

3. Удаление реверберации (эха) при помощи плагина iZotope RX Dereverb .

4. Удаление вздохов вручную при помощи эффекта Silence.

5. Маркировка аудиофайла для дальнейшей разбивки по предложениям при помощи плагина Markers.

Далее планируется провести анализ полученных речевых данных, лингвист проекта прослушает озвученные предложения для проверки соответствия слов в тексте озвученным диктором аудиообразцам. Необходимо учитывать и человеческий фактор, ведь при прочтении текста дикторы иногда могут непроизвольно заменять или же пропускать слова, менять окончания слов. После прослушивания аудио образцов и выявления ошибок производятся исправления непосредственно в тексте предложений. Это немаловажная задача, так как при обучении по подготовленной базе нейронная сеть выявляет соответствие символов в тексте их звуковому представлению в аудиофайле.

Исходя из некоторых особенностей работы системы DCTTS было решено использовать транскрибированные чеченские тексты, а в качестве входного алфавита для системы – латинские буквы и символы из фонетического алфавита AZBAT, ранее разработанного нами в качестве основы будущей системы синтеза чеченской речи. При разработке алфавита AZBAT учитывались особенности произношения и графики, правила сочетаемости и вариативность фонем, описанные в работах чеченских филологов.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *