В истории развития переводческой техники 1949 год, несомненно, является ключевым поворотным моментом. В том же году Уоррен Уивер официально предложил идею применения теории информации Клода Шеннона к машинному переводу, заложив тем самым теоретическую основу статистического машинного перевода (SMT). До этого перевод в основном опирался на громоздкие методы, основанные на правилах, которые обычно требовали детального определения языковых правил и большого объема профессиональных знаний. Этот метод был не только неэффективен, но и его трудно было обобщить на другие языки.
Концепция статистического машинного перевода основана на теории информации и направлена на использование вероятностных распределений для вывода о том, что строка целевого языка является переводом строки исходного языка.
Основой статистического машинного перевода является моделирование корреляции между разными языками в процессе перевода. Вклад Уивера заключался в том, чтобы представить способ мышления, основанный на вероятностных моделях, который использует языковые модели для прогнозирования вероятности составления пары переводов. Эта теория называется моделью условной вероятности, или
p(e|f)
, которая описывает вероятность появления строки e на целевом языке при заданной строке f на исходном языке. Вычисляя эти вероятности, система перевода выбирает наиболее вероятный перевод.В 1980-х годах исследователи IBM вновь представили эту теорию и начали разрабатывать реальные системы перевода. Они создали множество статистических моделей, которые с тех пор значительно улучшили технологию перевода. В частности, модели статистического перевода продемонстрировали свои мощные возможности обработки данных при обработке больших параллельных корпусов.
Статистический машинный перевод использует большое количество параллельных корпусов для повышения беглости и точности перевода, что значительно лучше, чем предыдущий перевод на основе правил.
Хотя появление статистического машинного перевода способствовало развитию переводческих технологий, оно также сталкивается с некоторыми проблемами. Например, создание высококачественных корпусов обходится дорого, а конкретные ошибки перевода зачастую сложно предсказать и исправить. Кроме того, статистическим моделям сложно обрабатывать перевод между языками с большими различиями в порядке слов. Для некоторых языковых пар, таких как перевод между западноевропейскими языками, статистические модели перевода могут дать хорошие результаты, но для других языковых пар производительность относительно низкая из-за различий в грамматических структурах.
Со временем статистический машинный перевод усовершенствовал модели обработки фраз. Эти фразы часто структурируются в так называемые «таблицы перевода фраз» — метод, который улучшает качество перевода за счет сокращения ограничения на количество слов за счет перевода фраз целиком. Позже эту технологию объединили с синтаксическим анализом для дальнейшего повышения точности и беглости перевода.
Проблемы с порядком слов, синтаксический анализ двойных слов и грамматические различия на разных языках всегда были проблемами, с которыми сталкивался статистический машинный перевод.
В конце концов, перед лицом постоянно меняющихся технических потребностей, нейронный машинный перевод с глубоким обучением постепенно заменил статистический машинный перевод. Это изменение не только оптимизирует эффективность перевода, но и улучшает качество перевода. С развитием этой технологии индустрия перевода сталкивается с новыми возможностями и проблемами, а будущие технологии перевода будут развиваться в более разумном и гуманном направлении.
В этой эволюции технологии перевода оригинальная идея Уоррена Уивера, несомненно, открыла нам глубокую связь между информацией и языком. Что касается будущего машинного перевода, нам следует задуматься о следующем: какие еще инновации могут способствовать развитию технологий машинного перевода в развивающемся мире?