Dans l'histoire du développement de la technologie de la traduction, 1949 constitue sans aucun doute un tournant clé. Cette année-là, Warren Weaver a formellement proposé l'idée d'appliquer la théorie de l'information de Claude Shannon à la traduction automatique, posant ainsi les bases théoriques de la traduction automatique statistique (SMT). Avant cela, la traduction reposait principalement sur des méthodes lourdes basées sur des règles, qui nécessitaient généralement une définition détaillée des règles linguistiques et une grande quantité de connaissances professionnelles. Cette méthode était non seulement inefficace, mais également difficile à généraliser à d’autres langues.
Le concept de traduction automatique statistique est basé sur la théorie de l'information et vise à utiliser des distributions de probabilité pour déduire que la chaîne de langue cible est la traduction de la chaîne de langue source.
Le cœur de la traduction automatique statistique est de modéliser la corrélation entre différentes langues au cours du processus de traduction. La contribution de Weaver a été d'introduire une façon de penser basée sur des modèles probabilistes, qui utilise des modèles linguistiques pour prédire la probabilité de former une paire de traduction. Cette théorie est appelée modèle de probabilité conditionnelle, ou
p(e|f)
, qui décrit la probabilité d'apparition d'une chaîne de langue cible e étant donné une chaîne de langue source f. En calculant ces probabilités, le système de traduction sélectionne la traduction la plus probable.Dans les années 1980, les chercheurs d'IBM ont réintroduit cette théorie et ont commencé à développer de véritables systèmes de traduction. Ils ont créé une variété de modèles statistiques qui ont depuis lors grandement amélioré la technologie de traduction. En particulier, les modèles de traduction statistique ont démontré leurs puissantes capacités de traitement de données lors du traitement de grands corpus parallèles.
La traduction automatique statistique utilise une grande quantité de corpus parallèles pour améliorer la fluidité et la précision de la traduction, ce qui est nettement meilleur que la traduction précédente basée sur des règles.
Bien que l'émergence de la traduction automatique statistique ait favorisé l'avancement de la technologie de traduction, elle est également confrontée à certains défis. Par exemple, la création de corpus de haute qualité coûte cher et les erreurs de traduction spécifiques sont souvent difficiles à prévoir et à corriger. De plus, il est difficile pour les modèles statistiques de gérer la traduction entre des langues présentant de grandes différences dans l’ordre des mots. Pour certaines paires de langues, comme la traduction entre langues d’Europe occidentale, les modèles de traduction basés sur des statistiques peuvent donner de bons résultats, mais pour d’autres paires de langues, les performances sont relativement médiocres en raison des différences dans les structures grammaticales.
Au fil du temps, la traduction automatique statistique a développé des modèles de traitement d'expressions. Ces phrases sont souvent structurées dans ce qu'on appelle des « tableaux de traduction de phrases », une méthode qui améliore la qualité de la traduction en réduisant le nombre limite de mots en traduisant des phrases dans la phrase entière. Plus tard, cette technologie a été combinée à l’analyse syntaxique pour améliorer encore la précision et la fluidité de la traduction.
Les problèmes d'ordre des mots, l'analyse double des mots et les différences grammaticales dans les différentes langues ont toujours été des défis auxquels est confrontée la traduction automatique statistique.
En fin de compte, face à des besoins techniques en constante évolution, la traduction automatique neuronale par apprentissage profond a progressivement remplacé la traduction automatique statistique. Ce changement optimise non seulement l’efficacité de la traduction, mais améliore également la qualité de la traduction. Avec les progrès de cette technologie, le secteur de la traduction est confronté à de nouvelles opportunités et à de nouveaux défis, et les technologies de traduction futures se développeront dans une direction plus intelligente et plus humaine.
Dans cette évolution de la technologie de traduction, l'idée originale de Warren Weaver nous a sans aucun doute révélé le lien profond entre l'information et le langage. Concernant l’avenir de la traduction automatique, nous devrions réfléchir aux questions suivantes : dans un monde en évolution, quelles autres innovations peuvent promouvoir l’avancement de la technologie de traduction automatique ?