Новости

Новогодние праздники приближаются, но это не снижает темп работы отдела прикладной семиотики АН ЧР

Основная практическая работа по первому этапу проекта была связана с подготовкой базы данных, которая состоит из чеченских текстов и соответствующих им фонограмм речи. База данных предназначена для машинного обучения нейросетевых систем синтеза и распознавания речи.
В рамках первого этапа по проекту решены следующие задачи: создание речевой и текстовой базы данных для обучения системы синтеза речи на базе глубоких сверточных нейронных сетей, создание различных программ для работы с грамматикой и речевыми технологиями чеченского языка, проводить оптимизацию созданной программы автоматического транскрибирования чеченских текстов, производить запись аудио базы по подготовленным текстам, выполнить обработку записанных аудиофайлов, разработать программный модуль нормализации числительных и аббревиатур.
Ведется работа по обработке голоса диктора и аудио файлов, при помощи программы Adobe Audition и состоит из следующих шагов:
Модификация голоса диктора с целью увеличения громкости до комфортного для человеческого слуха уровня порядка 20 Дб. Нормализация громкости выполнена при помощи эффекта Match Loudness.
Шумоподавление при помощи эффекта Noise Restoration (process).
Удаление реверберации (эха) при помощи плагина iZotope RX Dereverb.
Удаление вздохов вручную при помощи эффекта Silence.
Маркировка аудиофайла для дальнейшей разбивки по предложениям при помощи плагина Markers.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *