Профессор Гарольд Сомерс: Интернет-переводчики до сих пор плохо понимают шутки и жаргон

Гуру в изучении машинного перевода из Манчестерского университета выступил в Калининграде на научной конференции, после чего охотно пообщался с «Комсомолкой»

Александр Шамшиев

Гарольд Сомерс признает, что без участия человека в качественном переводе все равно не обойтись.

Профессор Гарольд Сомерс изучает языковую инженерию, является автором книг по машинному переводу, в свободное время играет на гитаре в любительской рок-группе. Он более десяти лет изучал переводчик Google и другие языковые программы. Мы пообщались с профессором во время научной конференции «Информационные технологии и системы - 2013», прошедшей в Калининграде и Светлогорске.

Про конфуз Мадонны

- Мистер Сомерс, что, на ваш взгляд, делает машинный перевод успешным?

- У меня два ответа. Смотря для чего вы собираетесь использовать машинный перевод как инструмент. Когда вы рассчитываете получить перевод текста, который иначе никак не прочтете, для этого машинный перевод пойдет. Потому вам непринципиально, что перевод не получится идеальным, если вы в целом уловите смысл. Например, вы интересуетесь футболом и желаете узнать, что бразильские газеты говорят о чемпионате мира, но не читаете по-португальски - переводчик сможет хотя бы дать примерное представление, о чем идет речь. Скажем, рады они или нет. Разумеется, качество перевода не позволит вам его публиковать где-нибудь. Вы отдаете себе отчет в несовершенстве результата. Плохим использованием будет перевод с непонятного вам языка важного и "чувствительного" текста - отчета врача, договора или политической речи. Подобное я бы даже Google не доверил.

- Это как Мадонна оконфузилась пару лет назад. После концерта она хотела оставить послание для русских поклонников. "Привет, дорогие фанаты" ей перевели в "привет, дорогие вентиляторы".

- Неудивительно. У очень коротких фраз больше шансов быть переведенными неправильно. Машинам нужны длинные фразы, чтобы уловить контекст. Так больше вероятность получить удовлетворительный результат. Причем необязательно требуется более сложная фраза, главное чтобы подлиннее. "Привет, дорогие фанаты" - всего три слова. С математической точки зрения, если Google точен на 60%, во фразе из трех слов одно будет неверным. Если бы она написала "привет, дорогие фанаты моих песен", сдается мне, перевели бы правильно. За "песню" машина зацепиться, чтобы понять смысл.

Словари уже не нужны

- Зависит ли качество машинного перевода от образованности автора и литературности текста?

- Не совсем. То есть очевидно, что безграмотные тексты проблематично переводить. Также переводчик Google плохо обходится с шутками, переносным смыслом, сленгом и жаргоном.

- Но ведь именно так люди в основном общаются в интернете.

- Расскажу историю, правда, с другого переводчика. Он использовался в чате. Разработчики поступили умно. Главный принцип любого переводчика - натренировать машину на тип текста, который вы собираетесь переводить в дальнейшем. Так устроены все программы. Для этого берут массивы переведенного текста, рассматривая их, машина "учиться" переводить. Она может выучить только то, что "увидела". Если обучите ее языку, который используется в чате, она сможет его верно перевести.

- То есть как попугай: говорит только то, что слышал ранее?

- Да.

- И как вы их натаскиваете? Загружаете словари или литературные произведения?

- Нет-нет. Мы собираем как можно больше данных в формате параллельных текстов, то есть текст и его перевод. Оттуда можно вычленять пары отдельных слов и - что важнее - словесных групп. Компьютеры обучаются находить соответствия между ними. Поэтому мы не грузим словари. Возьмем пример той же Мадонны. В словарях базовое значение слова fan - "вентилятор". Если смотреть исключительно тексты про поп-музыку, базовое значение fan - "фанат, поклонник". Используешь словарь - ошибешься. Если учитывать типа текста - будет нормальный перевод.

«Человека машина не заменит»

- Как вы оцениваете нынешнее качество работы программ-переводчиков?

- Хороши ли они? Скажу так: лично я часто их использую. Когда я летел к вам, мне хотелось узнать про регион с туристической точки зрения. Информации на английском совсем чуть-чуть, зато куча на русском. Вот я хотел глянуть, какие бы советы давали русским туристам. Мало ли им говорят то, чего не говорят иностранцам? Я перевел с помощью Google. Качеством перевод не блистал, но мне хватило. Я узнал много нового, а так бы вообще ничего не понял.

- А читать зарубежные СМИ?

- Читать можно, только цитировать - на свой страх и риск. Хотите узнать мнение арабской прессы о войне в Сирии - без проблем. Однако если вы журналист или аналитик, собираетесь использовать информацию в профессиональных целях - вам понадобится человек.

Часто приходится сталкиваться с завышенными ожиданиями пользователей. Корявость перевода приводит их в ужас, после чего они отказываются от услуг машинного перевода вообще. В этом плане ожидания чересчур завышены - это наша проблема.

- Реально достичь уровня, когда различия между переводом, выполненным человеком и машиной, будут минимальны?

- Наверное, у меня романтические и старомодные взгляды, но я считаю, что есть в переводе нечто, для чего необходимы человеческие навыки. Речь ведь идет не только о передаче значения слов, но и о верной и наилучшей подаче смысла. Вряд ли машинам когда-либо это удастся. Я вижу несколько путей развития электронных переводчиков. В современном мире люди перемещаются гораздо больше, чем раньше. Есть множество беженцев и мигрантов. На Западе это большая проблема. Как я слышал, в России - тоже. Люди попадают в чужую среду, не владеют ее языком, либо владеют плохо. В случае болезни им надо идти к врачу, а врач их не понимает. Я как раз разрабатывал алгоритмы устройств, которые помогли бы им общаться. Технология сложнее, чем для прогноза погоды, но то, что вам необходимо узнать у врача или сказать ему, тоже ограничено определенными рамками.

От другой сферы применения машинного перевода я бы сейчас не отказался как турист. Представьте смартфон с камерой. Видите надпись в меню или вывеску - наводите мобильник, фотографируете, затем нажимаете другую клавишу - получаете перевод. Пару лет назад я видел демонстрацию таких девайсов. Откровенно говоря, не знаю, почему их еще не начали массово выпускать.

На русский переводить сложнее

- Русский легко переводить?

- Легче в том, что из-за наличия у вас суффиксов, окончаний, падежей и склонений в русском меньше двусмысленности. В этом плане переводить с русского проще и точнее. Но по той же причине сложнее наоборот переводить на русский. И мы видим, что в этом Google часто путается.

- Язык развивается со временем. Машины поспевают за ним?

- Как раз здесь проблем нет. Для изменений грамматики требуются сотни лет. Меняется словарь, слова могут внезапно приобретать новые значения, но машины усваивают быстро.