Новости

Перевод на вайнахский. В Чечне занялись локализацией приложений и компьютерных программ

В Грозном группа ученых решила локализовать компьютерные программы и мобильные приложения. Локализация в общем смысле предполагает языковую и культурную адаптацию цифровых продуктов исходя из национальных особенностей отдельных регионов. В России программы, приложения, видеоигры чаще всего выпускаются на русском и английском языках. Работа северокавказских ученых позволит перевести их на чеченский.

Примечательно, что проект, который предполагал на старте главным образом проверку правописания набранных на чеченском языке текстов, в итоге подстегнул развитие национальной грамматики в целом. Работой занимаются в отделе семиотики Академии наук Чеченской Республики. Как рассказал корреспонденту “РГ” заведующий отделом, доктор физико-математических наук Салаудин Умархаджиев, к ней приступили в 2014 году.

– Сейчас повсеместно пользуются компьютерами. Когда мы набираем текст на русском или английском языках и неправильно пишем слово, оно подчеркивается. Но для чеченского такой функции нет. Наши молодые люди, общаясь на родном языке, допускают множество ошибок. Ведь каждый раз к бумажным словарям не обратишься, – говорит Умархаджиев.

Так и родилась идея заняться цифровизацией чеченского языка. У этой работы, действительно, есть и коммерческие перспективы. Первый шаг разработчиков приложений или программ при выходе на зарубежный рынок – локализация их продукта. Чаще всего это именно перевод программы на язык той страны, для которой она выпускается.

Конечно, базовый язык – английский. Но для выхода на рынки арабских или азиатских стран обязательно потребуется перевод на местные языки, особенно если речь идет о компьютерных играх. Локализуя продукт, важно учитывать множество факторов, в том числе религиозные традиции или государственный строй.

Чеченские ученые попытались обратиться к опыту коллег из других регионов России, но, как выяснилось, ранее такой работой занимались только в Татарстане. Туда и отправились северокавказские языковеды, а после возвращения вплотную занялись этой темой. К работе привлекли студентов.

– Мы сделали автоматическую проверку орфографии для чеченских текстов. Сложность заключалась в недостаточной изученности чеченского языка. Двуязычных и орфографических словарей совсем мало, и все они в бумажном виде. Чтобы компьютер мог с ними работать, их нужно было перевести в машинно-обрабатываемый формат. Мы это сделали, – продолжает Умархаджиев.

Для чеченского языка автоматическую систему проверки орфографии пришлось создать с нуля. Так появилась лингвистическая база, которая содержит около трех миллионов слов. Но проблемы возникли в связи с попыткой локализовать приложения Microsoft. Этой компании принадлежит один из самых популярных офисных пакетов, и исходный код приложений здесь закрытый, то есть работать с ними IT-компании могут только, если им предоставят нужные данные.

– Мы напрямую обратились в корпорацию с предложением добавить чеченскую локализацию в их программы. Нам посоветовали сделать запрос на специальном сайте для пользователей. Нас, кстати, многие поддержали, но Microsoft не проявил интереса. Тогда мы направили официальное письмо в офис российского представительства корпорации. Но и там нас проигнорировали, – рассказывает Умархаджиев.

Он подчеркнул, что в Татарстане эту проблему удалось решить после того, как к делу подключилось местное правительство, которое заключило соглашение с иностранной компанией. Тем же путем собираются пойти и в Чечне. Параллельно с этим работают над локализацией мобильных устройств на базе Android и IOS. На Linux, кстати, уже существует проверка правописания чеченских слов.

– Сейчас ждем издания нового большого орфографического словаря, работа над которым идет полным ходом. Тогда мы обновим и базу в три миллиона слов, – добавил ученый.

Кроме этого, сотрудники академии синтезировали чеченскую речь. Помог в этом выигранный грант от российского Фонда содействия инновациям размером в два миллиона рублей. Ученые наняли профессионального диктора, который начитал тексты продолжительностью 20 часов. Именно они и стали основой для синтеза речи. Сейчас разработчики ищут способ загрузить программу на серверы высокой производительности, так как персональным компьютерам не хватает мощностей для быстрой обработки данных.

Комментарий

Семен Буров, руководитель IT-компании:

– Локализация приложения, системы или какого-то цифрового продукта – гораздо более обширная работа, чем может показаться на первый взгляд. Чтобы пользователи увидели на смартфоне или в компьютере тексты на своем языке, нужна многоуровневая операция. Более того, каждый конкретный продукт требует отдельной работы. Самые распространенные современные операционные системы – Windows, MacOS, IOS, Android и Linux. И для всех нужны разработки чуть ли не с нуля.

А если речь идет о каком-то национальном языке, то необходимо еще больше усилий, так как многое придется делать впервые. А кроме того, нужны специалисты, которые бы владели этим языком. В общем, все упирается в рентабельность и запрос от пользователей. Если вложения оправдают усилия, то этой работой будут заниматься. В противном случае единственным способом провести языковую локализацию станет какая-то государственная программа. Но коммерческий продукт все же эффективнее.

Ссылка на источник.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *