• Новости

    Синтез чеченской речи: работа над программной обработкой голоса и специализированных плагинов

    Для системы DCTTS синтеза речи размер минимальной обучающей базы составляет 5 часов. Такая база использовалась отделом прикладной семиотики АН ЧР в 2019 году во время экспериментального обучения нейронных сетей. В рамках разрабатываемого проекта у нас появилась возможность подготовки более качественной и объемной (20 часов речи) фонетико-акустической базы данных. Подготовленная текстовая база данных была разбита на отдельные предложения длиной не более 180 символов вместе с пробелами. Каждое предложение пронумеровано для дальнейшей порядковой аудиозаписи по соответствующей нумерации. В итоге количество предложений в текстовой и аудио базе составило 14200. Таким образом, создаваемая база данных состоит из текстового документа с предложениями и звуковых файлов в формате.wav, то есть каждому текстовому предложению соответствует аудио образец…

  • Новости

    Разработка прототипа системы синтеза речи для чеченского языка

    Отделом прикладной семиотики АН ЧР проводится работа над разработкой экспериментальной фонетико-акустической базы чеченского языка, адаптированной для обучения нейросетевой системы синтеза речи. Основная практическая работа по первому этапу проекта была связана с подготовкой базы данных, которая состоит из чеченских текстов и соответствующих им фонограмм речи. База данных предназначена для машинного обучения нейросетевых систем синтеза и распознавания речи. В рамках первого этапа по проекту решались следующие задачи: создание речевой и текстовой базы данных для обучения системы синтеза речи на базе глубоких сверточных нейронных сетей; создание различных программ для работы с грамматикой и речевыми технологиями чеченского языка; проведение оптимизации созданной программы автоматического транскрибирования чеченских текстов; произведение записи аудио-базы по подготовленным текстам; выполнение обработки…

  • Новости

    Онлайн семинар отдела

    19 августа состоялся онлайн-семинар отдела прикладной семиотики АН ЧР. Одной из тем обсуждения был процесс работы над проектом по созданию системы синтеза чеченской речи. Основной задачей стоял вопрос об улучшении качества записи диктора. Устранение посторонних звуков и шумов проводится программистами отдела Султановым Зелемханом и Астемировым Арсламбеком. Подобная обработка аудиофайлов проводится “вручную”, данный метод требует долгой и кропотливой работы специалистов. Создание оболочки на языке программирования Python было поручено Астемирову Арсламбеку.  Регистрация в Роспатенте программы нормализатор числительных и аббревиатур, заведующий отделом Умархаджиев С.М. поручил сотруднику Султанову Зелимхану. В процессе обсуждения было решено создать базу аббревиатур и иных сокращений, впоследствии  также передать ее для записи диктору, т.к. для дальнейшей работы данная база необходима…

  • Новости

    Системы проверки орфографии (обзор)

    19 августа состоялся семинар отдела прикладной семиотики АН ЧР. С докладом на тему: «Системы проверки орфографии (обзор)»PDF  выступила Ясаева М.Л. В представленном докладе описываются системы проверки орфографии с открытым кодом. В качестве основных, учитывались следующие критерии: Возможность работы со сложносоставными словами; Количество поддерживаемых приложений и браузеров; Поддерживание немецкого и русского словаря; Актуальность и техническая поддержка системы. На основе данного анализа, было решено выбрать системы проверки орфографии Hunspell и GNU Aspell. По окончании семинара, было принято решение о более детальном изучении данных систем на предмет легкости внедрения в них словаря чеченского языка.

  • Новости

    ФЛАГИ для образования сложносоставных слов

    12 августа состоялся семинар отдела прикладной семиотики АН ЧР. С докладом на тему: «ФЛАГИ для образования сложносоставных слов»  PDF выступила Ясаева М.Л. В представленном докладе описываются примеры флагов и принцип их работы (на образчике системы проверки орфографии Hunspell), было также отмечено, что изучение данной области позволит ускорить работу по внедрению  чеченского языка в системы проверки орфографии. По окончании семинара, было принято решение о сравнении всех имеющихся систем, для последующего выбора лучшей из систем проверки орфографии с открытым кодом для сложносоставных слов. На основе данного анализа было решено начать работу над научной статьей.

  • Новости

    О системах проверки орфографии

    19 августа прошло совещание отдела прикладной семиотики АН ЧР. На совещании обсуждались вопросы касательно видов системы и программы проверки орфографии и содержание модулей системы синтеза чеченской речи.   Младший научный сотрудник Астемиров Арсламбек выступил с докладом о системах проверки орфографии, таких как: Hunspell, ОРФО и LanguageTool.   В ходе слушания доклада, среди присутствующих возникло обсуждение вопросов принципиально важных при выборе той или иной системы для внедрения чеченского языка.   Также на заседании были подняты вопросы подготовки и внедрения в систему синтеза чеченской речи некоторых модулей: нормализатор текстов, транслитератор, транскриптор и т.д. Были рассмотрены пути наиболее упрощенных алгоритмов при разработке данных модулей и приняты  решения относительно их реализации.   Сбор дополнительной…

  • Новости

    Проект системы автоматического синтеза и распознавания чеченской речи получил грант на реализацию

    Академия наук и ГГНТУ им.акад. М. Д. Миллионщикова разработали проект первой системы синтеза чеченской речи, который уже получил грант на реализацию. Разработчиком проекта выступила старший преподаватель кафедры «Информатика и вычислительная техника» Элиса Израилова. На стадии реализации эта инициатива получила положительные отзывы научной общественности. Особенность и необходимость ее подтверждает и факт того, что проект «Создание системы автоматического синтеза и распознавания чеченской речи» стал победителем программы «Старт» Фонда содействия инновациям. «Так как почти каждый из нас говорит и понимает речь, развитие естественно-языковых систем позволит человеку без специальных навыков общаться с компьютером в любое время и в любом месте без дополнительного обучения, используя такие устройства как мобильный телефон», – рассказывает Э. Израилова. Необходимо…

  • Новости

    TXTFILTERER

    Возможность сверки словарного материала на чеченском языке предоставила программа TXTFILTERER. Программа автоматически проверяет все слова из указанного текстового файла на их наличие в эталонной базе данных. Файлы для сверки и «эталонной базы» можно задать вручную. Программа активно используется для выполнения технической части работы со словарным материалом, как специалистами по компьютерной лингвистике, так и филологами, работающими в области лексикографии. Программа может работать с различными форматами текстовых документов, таких как pdf, txt, doc, docx, xls, odt и т.д..

  • Новости

    ELP-I_FOR_LINUX

    Общеизвестная программа для набора буквы «Ӏ» на чеченском языке, теперь доступна в операционной системе LINUX. Программа ELP-I заметно облегчила не только набор текстов на чеченском языке, но и редактуру готовых материалов. После установки программы на компьютер и настройки русской клавиатуры, ELP-I реализует следующие функции: Нажатие клавиши BKSL (обратный слэш «\») – выдает букву I; В документе LibreOffice Writer, одновременное нажатие двух клавиш Alt+I – заменяет все цифры «1», играющие роль буквы «I», на букву «I».

  • Новости

    Заседание семинара

    25.06.2020 прошло первое еженедельное заседание семинара отдела прикладной семиотики АН ЧР, отложенное ранее в связи режимом самоизоляции. На заседании были подняты вопросы связанные с переходным периодом работы в отделе по различным направлениям. Одним из наиболее активно разрабатываемых, является создание систем синтеза чеченской речи. В рамках проекта, реализовываемого по гранту, предполагается работа в два этапа. В настоящее время, к концу подходит работа над первым этапом, а именно – над созданием базы данных, включающую тексты на чеченском языке и соответствующие им аудиофайлы. На заседании были обсуждены вопросы по завершению первого этапа и началу работы над вторым. Следующей темой стало внесение изменений в правила орфографии чеченского языка. В связи с чем перед сотрудниками…