Для системы DCTTS синтеза речи размер минимальной обучающей базы составляет 5 часов. Такая база использовалась отделом прикладной семиотики АН ЧР в 2019 году во время экспериментального обучения нейронных сетей. В рамках разрабатываемого проекта у нас появилась возможность подготовки более качественной и объемной (20 часов речи) фонетико-акустической базы данных. Подготовленная текстовая база данных была разбита на отдельные предложения длиной не более 180 символов вместе с пробелами. Каждое предложение пронумеровано для дальнейшей порядковой аудиозаписи по соответствующей нумерации. В итоге количество предложений в текстовой и аудио базе составило 14200. Таким образом, создаваемая база данных состоит из текстового документа с предложениями и звуковых файлов в формате.wav, то есть каждому текстовому предложению соответствует аудио образец…
-
-
Разработка прототипа системы синтеза речи для чеченского языка
Отделом прикладной семиотики АН ЧР проводится работа над разработкой экспериментальной фонетико-акустической базы чеченского языка, адаптированной для обучения нейросетевой системы синтеза речи. Основная практическая работа по первому этапу проекта была связана с подготовкой базы данных, которая состоит из чеченских текстов и соответствующих им фонограмм речи. База данных предназначена для машинного обучения нейросетевых систем синтеза и распознавания речи. В рамках первого этапа по проекту решались следующие задачи: создание речевой и текстовой базы данных для обучения системы синтеза речи на базе глубоких сверточных нейронных сетей; создание различных программ для работы с грамматикой и речевыми технологиями чеченского языка; проведение оптимизации созданной программы автоматического транскрибирования чеченских текстов; произведение записи аудио-базы по подготовленным текстам; выполнение обработки…