Приложения для перевода становятся все лучше, но до идеала еще далеко. В особенности это касается редких языков. Могут ли искусственный интеллект и нейросети исправить ситуацию?
Этим летом во время чемпионата мира по футболу в России был зафиксирован резкий рост обращений к сервису Google Translate, показывают данные компании. Болельщики пытались установить контакт с местными жителями и с фанатами из других стран.
Особенно часто они искали перевод слов "стадион" и "пиво".
Читайте также на BBC News Русская служба
Традиционные разговорники уже уходят в прошлое. Недавнее исследование Британского совета показало, что в возрастной категории "16-34" две трети респондентов, находясь в чужой языковой среде, пользуются мобильными приложениями для перевода.
Хотя такие приложения несомненно становятся совершеннее, целиком полагаться на них пока нельзя. Каждый пятый из опрошенных рассказал, что сталкивался с трудностями из-за некорректного автоматического перевода.
Особенно это актуально для носителей локальных языков. Например, валлийцы обращали внимание на то, что "взрывные работы" приложение переводит как "gweithwyr yn ffrwydro" или "рабочие взрываются".
В этом году один из пользователей Google Translate обнаружил, что если ввести в поле для перевода слово "dog" 18 раз и попросить перевести его с языка маори, то сервис выдает следующий текст: "На часах Судного дня без трех минут двенадцать. Знаки и трагические события, во времена которых мы живем, указывают, что мы приближаемся к концу света и второму пришествию Иисуса".
Почему же нелепые ошибки в переводах до сих пор встречаются, хотя на дворе эпоха суперкомпьютеров и машинного обучения?
Главная проблема заключается в том, что у слова зачастую бывает несколько значений. Омографы - слова, которые совпадают в написании, но различаются в произношении - ставят в неловкое положение не только отдыхающих на курортах, но и правительства.
Так, британский кабинет министров в прошедшем июле подготовил "белую книгу" по "брекситу" на немецком языке, в которой "отправление демократических процедур" перевели как "demokratische Übung". Дословно это можно перевести как "демократическую гимнастику".
Чтобы исключить такие ошибки, алгоритмы машинного обучения в приложениях для перевода постоянно дорабатываются. Они сверяются с предыдущими запросами, принимают во внимание контекст, в котором то или иное слово ранее использовалось, и подбирают наиболее уместное его значение.
В этом году компания Microsoft объявила, что создала искусственный интеллект, который способен переводить не хуже человека. Робот перевел серию публикаций из китайской прессы на английский, и группа независимых экспертов пришла к выводу, что качество перевода было сравнимо с переводом тех же текстов, выполненным двумя профессиональными переводчиками.
В компании говорили, что добиться этого удалось за счет глубоких нейронных сетей и статистического машинного обучения.
Сначала происходит грубый перевод, который затем шлифуется путем повторения разных вариантов, их сравнения и, в конечном итоге, обучения. Схожим образом переводу учатся и люди.
Разработанный компанией инструмент для перевода имеет четкое представление о грамматической структуре предложения в каждом языке, которое сложилось из массива выполненных ранее переводов.
Машинный перевод, качество которого сравнимо с качеством перевода, выполненным человеком, кажется довольно впечатляющим достижением. Но даже в Microsoft признают, что перевод новостных статей - не то же самое, что перевод живого разговора, которому свойственны идиомы, акценты и диалектические особенности.
В прошлом году Google выпустила наушники-вкладыши Pixel Buds, которые умеют в режиме реального времени переводить 40 языков. Качество их переводов при этом вызывает вопросы. Похожий продукт - Pilot Translating Earpiece - с поддержкой 15 языков разрабатывает нью-йоркский стартап Waverly Labs.
Но когда приходится осуществлять перевод между двумя языками, у которых нет большой базы взаимных переводов, к которой можно было бы обращаться (например, с сингальского на пушту), задача становится особенно сложной.
Можно сначала перевести с сингальского на английский, а полученный результат - на пушту, но очевидно, что при таком подходе будут появляться ошибки и неточности.
Описанный выше случай с языком маори и апокалиптическими предсказаниями объясняется в том числе избыточной зависимостью машинных переводов от текстов, которые существуют на обоих интересующих пользователя языках. В случае с английским и маори это была Библия.
"Если вы закладываете в модель для перевода предложения из древнего манускрипта и пытаетесь перевести разговор двух современных людей, модель столкнется со сложностями, потому что и содержание, и стилистика современной разговорной речи очень сильно отличается от того, что можно найти в древних манускриптах", - объясняет разработчик искусственного интеллекта из Facebook Гийом Лампл.
Проект, над которым Лампл сейчас работает вместе с командой исследователей из Facebook и Сорбонны, может предложить решение этой проблемы.
Он использует в качестве текстовой базы по несколько сотен тысяч предложений на каждом языке, но не использует предложения, переведенные напрямую.
Эта система принимает во внимание то, как одни слова сочетаются с другими. Например, в английском слова "кот" и "пушистый" используются вместе так же, как в испанском. Система обучается подобным подстановкам слов, и это позволяет ей делать более точные переводы. Затем используются те же техники, что и в случае с переводчиком Microsoft.
По словам Лампла, при помощи такой методики можно не только переводить живые языки, но и расшифровывать мертвые и потерянные.
"Но есть серьезная проблема - недостаток предложений, составленных на этих языках. Например, Манускрипт Войнича (документ XV века, написанный неизвестным алфавитом на неизвестном языке. - Би-би-си) состоит всего лишь из нескольких сотен страниц. Этого слишком мало для нашей модели", - говорит он.
При наличии достаточного объема текста система должна справиться с расшифровкой мертвого языка, полагает Лампл.
Эта перспектива открывает и многие другие удивительные возможности. "Мы можем научиться общаться с инопланетянами, - рассуждает Лампл. - Но для начала им придется много говорить, причем на темы, схожие с теми, на которые обычно говорим мы".
«Запрещено копировать, распространять или иным образом использовать материалы Русской службы Би-би-си»
-
1🎉 Группа Orda, ансамбль "Яшлык" и V$XV Prince. Как интересно провести выходные 23 и 24 ноября в Астане и Алматы
- 5465
- 1
- 6
-
2⚠️ Доброе утро! Предлагаем обзор главных новостей за 20 ноября
- 2480
- 0
- 5
-
3🍇 В модном винограде без косточек казахстанские специалисты не нашли вредных бактерий
- 2447
- 3
- 23
-
4🤔 Борьба с покупкой водительских прав: автошколы отказываются передавать частной компании данные о выпускниках
- 2298
- 2
- 26
-
5👀 В Казахстане редко назначают домашний арест, несмотря на большие расходы на содержание в СИЗО
- 2177
- 2
- 9
-
6👨⚖️👨⚖️👨⚖️🟢Суд Алматы отправил руководителя таможенной лаборатории в колонию за взятки
- 2168
- 0
- 25
-
7🎫✈️ Станут ли невозвратные билеты возвратными и зачем субсидировать авиарейсы – глава КГА
- 2224
- 0
- 11
-
8😱 Одного из богатейших людей мира обвинили во взяточничестве. Акции его компаний обвалились
- 2273
- 3
- 14
-
9🟢 Улице в Астане присвоили имя общественного деятеля
- 2198
- 2
- 46
-
10🚛🏗 Торговля и логистика в Центральной Азии: новые коридоры, продукты и D2C-модель
- 2182
- 0
- 6