X

Как искусственный интеллект обучают якутскому языку

Якутский вариант Алисы. Изображение сгенерировано нейросетью Kandinsky

На прошлой неделе в Якутске состоялось открытие лаборатории искусственного интеллекта, единственной в республике. Разработчики уже реализуют в ней первые четыре проекта. Об одном из них мы сегодня и поговорим.

Представьте, что однажды «умная» колонка Алиса вдруг заговорит на якутском языке. И звать её будут, допустим, Айыына. «Айыына, бүгүн халлааммыт туруга хайдаҕый (Айыына, какая сегодня погода)?» – спросили бы вы ее. «Былыттаах, күнүс кыратык хаардыа (облачно, днем ожидается небольшой снегопад)», – ответила бы она.

Или вы попросили бы ее рассказать сказку на ночь, и она тут же начала бы: «Былыыр-былыр оҕонньордоох эмээхсин олорбуттара эбитэ үһү… (Давным-давно жили-были старик со старухой…)».

Именно к созданию такого голосового помощника стремится команда Сергея Степанова, руководителя молодежной лаборатории «Вычислительные технологии и искусственный интеллект» Института математики и информатики Северо-Восточного федерального университета имени М.К. Аммосова. Мечта грандиозная. А путь к ней долгий и тернистый.

Первый шаг – сбор данных

Началось все на серьезном уровне в ноябре прошлого года, когда университет, правительство республики и холдинг Сбер подписали трехсторонний меморандум о сотрудничестве по созданию в Якутске лаборатории искусственного интеллекта. Меморандум назвали знаком общего стремления к будущему, где инновации служат всем людям.

«До этого мы все равно что-то пытались делать, но это были чисто энтузиасты своего дела. Просто как: о, давайте попробуем обучить нейросеть якутскому языку. Обучили, посмотрели: а она, оказывается, учится. И все.

А тут уже кто-то дал тебе стимул и финансирование. И мы начали заниматься этим. У нас набрался коллектив молодых людей: я как руководитель, еще один научный сотрудник и студенты старших курсов, магистранты – всего 11 человек», – рассказывает Сергей.

Искусственный интеллект, который команда сейчас «якутизирует», – трансформер, собранный по частям из разных других, открытых для свободного доступа нейросетей. Одну функцию взяли оттуда, дополнили. Вторую – отсюда, что-то там поменяли и т.д. Код пишут на языке Python.

Создать всю программу с нуля не хватает ни средств, ни времени, ни рук. Для этого нужна огромная команда профессионалов, к примеру как у того же Яндекса. Такой у якутских разработчиков, конечно, нет. Зато у них есть другая поддержка.

Под патронатом правительства республики свои базы данных им предоставили практически все СМИ на якутском языке, НВК «Саха», Национальная библиотека Якутии и др. Собственно, это и есть первый шаг на пути к цели – сбор датасетов: текстов, аудио, файлов и пр.

Сергей с ребятами «скормили» нейросети все, что было. Но это составило… всего 2% от необходимого объема информации.

«Сейчас у нас очень мало данных, пара гигабайтов всего. А должно быть больше 100 ГБ, – делится разработчик. – Поэтому университет хочет подключить к работе студентов старших курсов Института языков и культуры народов Северо-Востока РФ, чтобы они наговорили аудиозаписи и набрали тексты».

Второй шаг – перевод

И вот мы подошли ко второй задаче – нейросеть должна правильно переводить с якутского и обратно.

«В интернете очень мало подходящего материала для обучения ИИ. Поэтому мы сами создаем какие-то синтетические данные – переводим тексты с русского на якутский. Используем готовые переводчики. Но они не очень хорошо работают. А когда мы наберем достаточно датасетов, перед нами встанет следующая задача – сделать хороший переводчик.

Если у нас будут данные на русском и якутском – это уже параллельный корпус. Мы научим искусственный интеллект переводить тексты с русского на якутский точнее, чем тот же Яндекс, например», – говорит Сергей.

Третий шаг – распознавание

Следующая задача на пути к цели – нейронка должна переводить картинки в редактируемые тексты.

«Вот есть же старые якутские книжки, отсканированные листы или jpeg-изображения – она должна распознавать слова на них и преобразовать их в текст. Русский язык искусственный интеллект хорошо различает, это все есть. А вот с якутским могут быть проблемы: те же наши ү, ө, ҕ и другие буквы он может распознать как-то по-другому», – объясняет наш собеседник. Над этим вопросом ребята тоже сейчас работают.

Четвертый шаг – расшифровка

Также искусственный интеллект должен распознавать аудиофайлы с якутской речью и выводить ее в текстовом виде. Собственно, в каком-то виде у команды эта функция уже есть и работает, но недостаточно хорошо.

«Раньше, когда мы только начинали этим заниматься, у нас каждое третье слово выходило с ошибкой. Сейчас процент неправильного распознавания речи сократился, наверно, вдвое: уже не каждое третье слово, а шестое или даже седьмое», – делится Сергей.

Мы опробовали чат-бот, созданный командой якутских разработчиков в телеграм-канале. И он очень даже неплохо справился с задачей. Результат вы можете посмотреть сами на скриншоте. К слову, Яндекс Переводчик не поддерживает якутскую речь в аудиоверсии.

Фото: скриншот

Голосовой помощник

Все эти шаги – ступеньки к главной цели, а именно – к созданию голосового помощника.

«Это типа синтезатора речи. Плюс там еще понадобится «мозг», чтобы он не просто вас слышал и ответил готовыми фразами, а думал. Вот вы пользовались ChatGPT (чат-бот с генеративным искусственным интеллектом, способный работать в диалоговом режиме – прим. ред.)? Вы же у него спрашиваете о чем-то, например, просите написать стихотворение про осень. И он сочиняет. Вот таким должен быть голосовой помощник», – объясняет программист.

Но все это, конечно, на якутском языке. ИИ должен знать, какое сегодня число, день недели, уметь включать якутскую песню и т.д. В далеких планах также – создание оператора, который мог бы, к примеру, записать пациентов к врачу.

«Звонишь по телефону, а он отвечает: вот на такие-то даты есть свободные окошки, куда вас записать? В общем, это как разговор с человеком. Но на сегодняшний день даже русские голосовые помощники до такого еще не дошли», – рассказал Сергей.

***

Первый результат работы якутских разработчиков выйдет уже в ноябре-декабре текущего года. Пока это просто пробный вариант, бета-версия. Его еще дорабатывать и дорабатывать. Но он уже будет способен облегчить работу тем, чья деятельность связана с якутским языком. Ждем с нетерпением!

+1
7
+1
0
+1
0
+1
2
+1
0
+1
0
+1
0

This post was published on 06.10.2024 11:00

Related Post