Онлайн-переводчики стали лучше, но все еще делают нелепые ошибки. Почему?

26 сентября 2018, 15:09 BBC News Русская служба

Informburo.kz публикует материалы Русской службы BBC News.

Приложения для перевода становятся все лучше, но до идеала еще далеко. В особенности это касается редких языков. Могут ли искусственный интеллект и нейросети исправить ситуацию?

Этим летом во время чемпионата мира по футболу в России был зафиксирован резкий рост обращений к сервису Google Translate, показывают данные компании. Болельщики пытались установить контакт с местными жителями и с фанатами из других стран.

Особенно часто они искали перевод слов "стадион" и "пиво".

Читайте также на BBC News Русская служба

Традиционные разговорники уже уходят в прошлое. Недавнее исследование Британского совета показало, что в возрастной категории "16-34" две трети респондентов, находясь в чужой языковой среде, пользуются мобильными приложениями для перевода.

Хотя такие приложения несомненно становятся совершеннее, целиком полагаться на них пока нельзя. Каждый пятый из опрошенных рассказал, что сталкивался с трудностями из-за некорректного автоматического перевода.

Особенно это актуально для носителей локальных языков. Например, валлийцы обращали внимание на то, что "взрывные работы" приложение переводит как "gweithwyr yn ffrwydro" или "рабочие взрываются".

В этом году один из пользователей Google Translate обнаружил, что если ввести в поле для перевода слово "dog" 18 раз и попросить перевести его с языка маори, то сервис выдает следующий текст: "На часах Судного дня без трех минут двенадцать. Знаки и трагические события, во времена которых мы живем, указывают, что мы приближаемся к концу света и второму пришествию Иисуса".

Почему же нелепые ошибки в переводах до сих пор встречаются, хотя на дворе эпоха суперкомпьютеров и машинного обучения?

Главная проблема заключается в том, что у слова зачастую бывает несколько значений. Омографы - слова, которые совпадают в написании, но различаются в произношении - ставят в неловкое положение не только отдыхающих на курортах, но и правительства.

Так, британский кабинет министров в прошедшем июле подготовил "белую книгу" по "брекситу" на немецком языке, в которой "отправление демократических процедур" перевели как "demokratische Übung". Дословно это можно перевести как "демократическую гимнастику".

Чтобы исключить такие ошибки, алгоритмы машинного обучения в приложениях для перевода постоянно дорабатываются. Они сверяются с предыдущими запросами, принимают во внимание контекст, в котором то или иное слово ранее использовалось, и подбирают наиболее уместное его значение.

В этом году компания Microsoft объявила, что создала искусственный интеллект, который способен переводить не хуже человека. Робот перевел серию публикаций из китайской прессы на английский, и группа независимых экспертов пришла к выводу, что качество перевода было сравнимо с переводом тех же текстов, выполненным двумя профессиональными переводчиками.

В компании говорили, что добиться этого удалось за счет глубоких нейронных сетей и статистического машинного обучения.

Сначала происходит грубый перевод, который затем шлифуется путем повторения разных вариантов, их сравнения и, в конечном итоге, обучения. Схожим образом переводу учатся и люди.

Разработанный компанией инструмент для перевода имеет четкое представление о грамматической структуре предложения в каждом языке, которое сложилось из массива выполненных ранее переводов.

Машинный перевод, качество которого сравнимо с качеством перевода, выполненным человеком, кажется довольно впечатляющим достижением. Но даже в Microsoft признают, что перевод новостных статей - не то же самое, что перевод живого разговора, которому свойственны идиомы, акценты и диалектические особенности.

В прошлом году Google выпустила наушники-вкладыши Pixel Buds, которые умеют в режиме реального времени переводить 40 языков. Качество их переводов при этом вызывает вопросы. Похожий продукт - Pilot Translating Earpiece - с поддержкой 15 языков разрабатывает нью-йоркский стартап Waverly Labs.

Устройство для перевода Pilot Translating Earpiece

Но когда приходится осуществлять перевод между двумя языками, у которых нет большой базы взаимных переводов, к которой можно было бы обращаться (например, с сингальского на пушту), задача становится особенно сложной.

Можно сначала перевести с сингальского на английский, а полученный результат - на пушту, но очевидно, что при таком подходе будут появляться ошибки и неточности.

Описанный выше случай с языком маори и апокалиптическими предсказаниями объясняется в том числе избыточной зависимостью машинных переводов от текстов, которые существуют на обоих интересующих пользователя языках. В случае с английским и маори это была Библия.

"Если вы закладываете в модель для перевода предложения из древнего манускрипта и пытаетесь перевести разговор двух современных людей, модель столкнется со сложностями, потому что и содержание, и стилистика современной разговорной речи очень сильно отличается от того, что можно найти в древних манускриптах", - объясняет разработчик искусственного интеллекта из Facebook Гийом Лампл.

Проект, над которым Лампл сейчас работает вместе с командой исследователей из Facebook и Сорбонны, может предложить решение этой проблемы.

Он использует в качестве текстовой базы по несколько сотен тысяч предложений на каждом языке, но не использует предложения, переведенные напрямую.

Эта система принимает во внимание то, как одни слова сочетаются с другими. Например, в английском слова "кот" и "пушистый" используются вместе так же, как в испанском. Система обучается подобным подстановкам слов, и это позволяет ей делать более точные переводы. Затем используются те же техники, что и в случае с переводчиком Microsoft.

По словам Лампла, при помощи такой методики можно не только переводить живые языки, но и расшифровывать мертвые и потерянные.

"Но есть серьезная проблема - недостаток предложений, составленных на этих языках. Например, Манускрипт Войнича (документ XV века, написанный неизвестным алфавитом на неизвестном языке. - Би-би-си) состоит всего лишь из нескольких сотен страниц. Этого слишком мало для нашей модели", - говорит он.

При наличии достаточного объема текста система должна справиться с расшифровкой мертвого языка, полагает Лампл.

Эта перспектива открывает и многие другие удивительные возможности. "Мы можем научиться общаться с инопланетянами, - рассуждает Лампл. - Но для начала им придется много говорить, причем на темы, схожие с теми, на которые обычно говорим мы".

Онлайн-переводчики стали лучше, но все еще делают нелепые ошибки. Почему?

Поделиться: