Новости

Современные технологии в изучении и сохранении чеченского языка

С появлением компьютерных способов обработки информации появились и возможности для развития лингвистики с применением информационных технологий

Каждый народ славит и воспевает свой родной язык, ведь язык – это то, что определяет самобытность и уникальность нации. Первый Президент ЧР Ахмат-Хаджи Кадыров говорил: «Народ, как нация, существует до тех пор, пока сохраняет свой язык и культуру». Глава ЧР Рамзан Ахматович Кадыров большое внимание уделяет развитию и сохранению родного языка. Он не раз заявлял, что мы должны сохранять и развивать родной язык, сберечь его для будущих поколений.

Несколько лет назад в ЧР был запущен проект по внедрению чеченского языка в компьютерные технологии, которые предоставляют обществу большие возможности в изучении и сохранении родного языка. Этим занимается отдел прикладной семиотики АН ЧР. Научный сотрудник этого отдела Мадина Ясаева рассказала об исследованиях родного языка, о создании Банка текстов чеченского языка.

– Что такое Банк текстов?

– Банк текстов – это собрание всех возможных текстов, опубликованных на чеченском языке: газетных, литературных. Для чего отдел прикладной семиотики АН ЧР создает этот банк? Это делается для дальнейших исследований в области прикладной семиотики, для синтеза и распознавания речи, компьютерной лингвистики, устранения омонимии, для систем машинного перевода автоматизированных систем как массив языковых данных.

– Какова история создания Банка текстов чеченского языка?

– С изобретением и широким распространением ЭВМ для лингвистики наступил новый этап развития. С появлением компьютерных способов обработки информации появились и возможности для развития лингвистики с применением информационных технологий. Современная лингвистическая работа часто невозможна без перевода текстов в электронную форму. Использование цифровых средств позволяет создавать новые базы для решения актуальных проблем лингвистики, истории, социологии и других гуманитарных наук.
Банк текстов – это так называемое «тело языка», некое собрание текстов. Однако в отличие от привычных для нас собраний текстов – библиотек, организованных для удобства чтения, эти тексты подготавливаются таким образом, чтобы их было удобно изучать.

– Какая главная задача в вашей работе?

– Первостепенная наша цель – сохранение чеченского языка, а второстепенная задача – дальнейшие исследования чеченского языка.

– Над чем Вы сейчас работаете?

– Чтобы провести исследование чеченского языка, нужно собрать тексты и обработать их, т.е. это не должна быть фотография текста, это должен быть распознанный текст для дальнейшей обработки, со всеми выходными данными. Это минимальная информация, которая вносится в Банк языка. А для компьютерной лингвистики нужны данные предложений и слов для извлечения информации о частоте использования слова и предложения, положения слова в тексте, жанра произведения, где чаще используются это слово и это предложение.
Сейчас отдел прикладной семиотики АН ЧР занимается сбором текстов статей журналов, газет, научных публикаций. Мы работаем над устранением графической омонимии, т.е. отдел прикладной семиотики АН ЧР закончил работу над синтезом речи, и выявились некоторые недоработки, ведь и система не всегда правильно читает омографы. Сейчас мы заняты устранением графической омонимии, и в этой работе мы опираемся на Банк текстов. Раньше из-за его отсутствия мы испытывали определенные проблемы, но сейчас мы начали собирать тексты для системы синтеза речи. Она сможет обучиться на этих текстах, что поможет правильно распознавать омографы. К примеру, чтоб распознать «бАжа» это или «бажа», «дАкъа» или «дакъа», чтобы обучить программу, необходимы были базы текстов, содержащие эти омографы в различных контекстах. Для этого изначально отдел прикладной семиотики АН ЧР начал собирать базы текстов на полтора миллиона слов. В итоге выяснилось, что предложений в базе недостаточно. Мы решили дальше заниматься собиранием текстов предложений. Получается, что толчком для создания Банка текстов стала нехватка этой базы.

– Влияет ли цифровизация на чеченский язык и языковое поведение?

– Цифровизация – это массовое использование компьютеров, цифровой техники. Если наши цифровые носители – компьютеры и телефоны – сегодня не будут поддерживать чеченский язык, то и молодежь, соответственно, не будет им пользоваться, а если следующее поколение будет использовать его еще меньше, это, несомненно, вызовет минимальное употребление чеченского языка в общении, а в дальнейшем – и к его исчезновению. Жизнеспособность языка зависит от его взаимодействия с современными технологиями – компьютером, телефоном, смартфоном.
Почему нам нужно создать такой большой Банк текстов? Большинство современных технологий, основанных на машинном обучении, на нейронных сетях, используют метод создания больших систем. На английском языке есть такой термин Big Data. Big Data – это большие данные, это много баз данных, т.е. очень много текста. Это огромный труд, но это необходимо сделать. Отдел прикладной семиотики АН ЧР давно хотел этим заняться. Мы знали, что это когда-то нужно сделать, и мы начали это делать. Сейчас пока собираем слова, предложения, делаем стандартную обработку, структуру и систематизацию, надо сказать, это долгий труд. При обработке больших текстов компьютеры зависают. По этой причине у нас возникает нехватка оборудования.

– Какие опубликованные за последнее время работы в области чеченского языкознания Вы можете особо выделить? Какие применяете в своей работе?

– В первую очередь это Большой орфографический словарь чеченского языка (десятитомник) – совместный продукт Института чеченского языка, Академии наук ЧР и Министерства образования и науки ЧР, это работа сотрудников нашего отдела, филологов. В своей работе отдел прикладной семиотики АН ЧР часто использует это издание. Также это Чеченско-русский словарь А.Г. Мациева – наша база и фундамент, хотя он и опубликован в 60-х годах прошлого века, но это базовый словарь, который мы используем в работе над Банком языка. У нас не так много еще словарей, особенно большая нехватка толковых словарей чеченского языка. Он считается малоресурсным, и поэтому все мы нацелены на работу с этим языком.

Анна БУЛАХ,
искусствовед

№95 (3488)

https://vesti095.ru

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *