Прямой эфир Новости спорта

Informburo.kz публикует материалы "Русской службы BBC News"
Онлайн-переводчики стали лучше, но все еще делают нелепые ошибки. Почему?

Getty Imagies
Getty Imagies
Informburo.kz публикует материалы Русской службы BBC News.

Приложения для перевода становятся все лучше, но до идеала еще далеко. В особенности это касается редких языков. Могут ли искусственный интеллект и нейросети исправить ситуацию?

Этим летом во время чемпионата мира по футболу в России был зафиксирован резкий рост обращений к сервису Google Translate, показывают данные компании. Болельщики пытались установить контакт с местными жителями и с фанатами из других стран.

Особенно часто они искали перевод слов "стадион" и "пиво".

Традиционные разговорники уже уходят в прошлое. Недавнее исследование Британского совета показало, что в возрастной категории "16-34" две трети респондентов, находясь в чужой языковой среде, пользуются мобильными приложениями для перевода.

Хотя такие приложения несомненно становятся совершеннее, целиком полагаться на них пока нельзя. Каждый пятый из опрошенных рассказал, что сталкивался с трудностями из-за некорректного автоматического перевода.

Особенно это актуально для носителей локальных языков. Например, валлийцы обращали внимание на то, что "взрывные работы" приложение переводит как "gweithwyr yn ffrwydro" или "рабочие взрываются".

В этом году один из пользователей Google Translate обнаружил, что если ввести в поле для перевода слово "dog" 18 раз и попросить перевести его с языка маори, то сервис выдает следующий текст: "На часах Судного дня без трех минут двенадцать. Знаки и трагические события, во времена которых мы живем, указывают, что мы приближаемся к концу света и второму пришествию Иисуса".

Почему же нелепые ошибки в переводах до сих пор встречаются, хотя на дворе эпоха суперкомпьютеров и машинного обучения?

Главная проблема заключается в том, что у слова зачастую бывает несколько значений. Омографы - слова, которые совпадают в написании, но различаются в произношении - ставят в неловкое положение не только отдыхающих на курортах, но и правительства.

Так, британский кабинет министров в прошедшем июле подготовил "белую книгу" по "брекситу" на немецком языке, в которой "отправление демократических процедур" перевели как "demokratische Übung". Дословно это можно перевести как "демократическую гимнастику".

Чтобы исключить такие ошибки, алгоритмы машинного обучения в приложениях для перевода постоянно дорабатываются. Они сверяются с предыдущими запросами, принимают во внимание контекст, в котором то или иное слово ранее использовалось, и подбирают наиболее уместное его значение.

В этом году компания Microsoft объявила, что создала искусственный интеллект, который способен переводить не хуже человека. Робот перевел серию публикаций из китайской прессы на английский, и группа независимых экспертов пришла к выводу, что качество перевода было сравнимо с переводом тех же текстов, выполненным двумя профессиональными переводчиками.

В компании говорили, что добиться этого удалось за счет глубоких нейронных сетей и статистического машинного обучения.

Сначала происходит грубый перевод, который затем шлифуется путем повторения разных вариантов, их сравнения и, в конечном итоге, обучения. Схожим образом переводу учатся и люди.

Разработанный компанией инструмент для перевода имеет четкое представление о грамматической структуре предложения в каждом языке, которое сложилось из массива выполненных ранее переводов.

Машинный перевод, качество которого сравнимо с качеством перевода, выполненным человеком, кажется довольно впечатляющим достижением. Но даже в Microsoft признают, что перевод новостных статей - не то же самое, что перевод живого разговора, которому свойственны идиомы, акценты и диалектические особенности.

В прошлом году Google выпустила наушники-вкладыши Pixel Buds, которые умеют в режиме реального времени переводить 40 языков. Качество их переводов при этом вызывает вопросы. Похожий продукт - Pilot Translating Earpiece - с поддержкой 15 языков разрабатывает нью-йоркский стартап Waverly Labs.


Устройство для перевода Pilot Translating Earpiece

Устройство для перевода Pilot Translating Earpiece


Но когда приходится осуществлять перевод между двумя языками, у которых нет большой базы взаимных переводов, к которой можно было бы обращаться (например, с сингальского на пушту), задача становится особенно сложной.

Можно сначала перевести с сингальского на английский, а полученный результат - на пушту, но очевидно, что при таком подходе будут появляться ошибки и неточности.

Описанный выше случай с языком маори и апокалиптическими предсказаниями объясняется в том числе избыточной зависимостью машинных переводов от текстов, которые существуют на обоих интересующих пользователя языках. В случае с английским и маори это была Библия.

"Если вы закладываете в модель для перевода предложения из древнего манускрипта и пытаетесь перевести разговор двух современных людей, модель столкнется со сложностями, потому что и содержание, и стилистика современной разговорной речи очень сильно отличается от того, что можно найти в древних манускриптах", - объясняет разработчик искусственного интеллекта из Facebook Гийом Лампл.

Проект, над которым Лампл сейчас работает вместе с командой исследователей из Facebook и Сорбонны, может предложить решение этой проблемы.

Он использует в качестве текстовой базы по несколько сотен тысяч предложений на каждом языке, но не использует предложения, переведенные напрямую.

Эта система принимает во внимание то, как одни слова сочетаются с другими. Например, в английском слова "кот" и "пушистый" используются вместе так же, как в испанском. Система обучается подобным подстановкам слов, и это позволяет ей делать более точные переводы. Затем используются те же техники, что и в случае с переводчиком Microsoft.

По словам Лампла, при помощи такой методики можно не только переводить живые языки, но и расшифровывать мертвые и потерянные.

"Но есть серьезная проблема - недостаток предложений, составленных на этих языках. Например, Манускрипт Войнича (документ XV века, написанный неизвестным алфавитом на неизвестном языке. - Би-би-си) состоит всего лишь из нескольких сотен страниц. Этого слишком мало для нашей модели", - говорит он.

При наличии достаточного объема текста система должна справиться с расшифровкой мертвого языка, полагает Лампл.

Эта перспектива открывает и многие другие удивительные возможности. "Мы можем научиться общаться с инопланетянами, - рассуждает Лампл. - Но для начала им придется много говорить, причем на темы, схожие с теми, на которые обычно говорим мы".

«Запрещено копировать, распространять или иным образом использовать материалы Русской службы Би-би-си»

Informburo.kz публикует материалы "Русской службы BBC News"
Популярное в нашем Telegram-канале
Новости партнеров