Не так давно наши коллеги из республиканской газеты «Саха сирэ» презентовали электронный якутско-русский словарь. Он размещен на сайте их издания «Эдэр саас» и поработать с ним может каждый. Работа была проведена титаническая, и её по заслугам оценили лингвисты. Сегодня мы публикуем отзыв Юрия Балашова, профессора университета штата Джорджия (США), интересующегося теорией и практикой перевода.
— Моя коллега по переводам, научный сотрудник Огайского университета (США) Галя Уильямс обратила мое внимание на интересный проект, связанный с созданием нового якутско-русского словаря. Это результат титанического труда, проделанного настоящим энтузиастом, кандидатом технических наук Василием Мигалкиным, который в течение более чем 20 лет составлял этот словарь практически вручную. Затем доцент Физико-технического института СВФУ Ньургун Леонтьев разработал онлайн-версию словаря, право пользования которым Мигалкин безвозмездно передал газете «Саха Сирэ». В результате пользователи во всем мире имеют доступ к морфологически богатой базе данных, включающей более 100 000 лексических единиц и 4,5 миллионов комбинаций. Словарь работает в обоих направлениях и выдает большое число примеров использования слов в реальных контекстах.
Мне кажется, это настоящий клад для всех носителей якутского языка, которых, по последним данным, насчитывается менее полумиллиона, а также для переводчиков и лингвистов, особенно тех, кто интересуется агглютинативными языками. Возможности контекстуального поиска языковых эквивалентов в словаре очень впечатляющи, при том, что выводятся лишь первые 50 результатов. Например, ввод слова «поиск» генерирует огромное число контекстов, в которых встречаются всевозможные формы этого слова, вместе с якутскими эквивалентами, от «разведка недр, поиск полезных ископаемых — сир баайын көрдөөһүн», до «обойди, исходи много мест в поисках (чего-либо) — хастаа». Один лишь список всех этих вариантов дает представление об объеме работы, вложенной Мигалкиным в составление словаря! Ввод словосочетания «в поиске», с другой стороны, дает два морфологически связанных результата: «будь в поиске – көрдөнүлүн» и «будьте в поиске — көрдөнүллүҥ».
Контекстуальные электронные словари, типа Linguee и Reverso, используются переводчиками в их работе уже несколько лет. Однако они поддерживают лишь несколько «ведущих» языков. А как быть с «низкоресурсными» языками, такими как якутский? Это серьезная проблема, и простых решений здесь нет.
Возможности машинного перевода (МП) с якутского и на якутский тоже крайне ограничены. Из мировых лидеров общедоступного машинного перевода якутский поддерживает только Яндекс. Однако, как сообщают мои источники, качество генерируемых им переводов весьма низкое. Это, конечно, неудивительно, учитывая, что параллельных текстов на якутском и русском, необходимых для «обучения» систем МП, очень мало. А на якутском и английском, вероятно, еще меньше. Поэтому использование английского в качестве «промежуточного» языка (pivot language) при машинном переводе с якутского на русский (и наоборот) вряд ли принесет пользу. Может быть, стоит попробовать более классические схемы «машинного перевода, основанного на правилах»? Проделанная Мигалкиным работа, возможно, послужила бы здесь подспорьем. С другой стороны, его внимание к контексту могло бы, наверное, помочь и в обучении нейронных моделей МП. Нельзя ли также извлечь какую-то выгоду из принадлежности якутского к семье других тюркских языков? Например, попробовав применить схемы «многоязыкового эмбеддинга», уже доказавшего свою эффективность в контексте других низкоресурсных языков? Или недавние идеи, связанные с эффективным использованием в машинном переводе моноязыковых корпусов?
Все это, конечно, лишь мысли стороннего наблюдателя. Они, однако, навеяны информацией о гигантской работе, проделанной Мигалкиным и его коллегами в рамках их проекта. А также их планами на будущее. Как отмечает Леонтьев, «Сейчас идет работа над морфологическим анализатором, машинным якутским корпусом, синтезом якутского языка, электронным переводом. К разработке привлечены студенты физико-технического института и также института математики и информатики – в частности, магистранты применяют нейронные сети».
This post was published on 19.03.2021 16:18