La technologie a amélioré la productivité mais n’a pas surmonté les complexités du langage humain.
Introduction
De grands esprits techniques travaillent sur la traduction automatique depuis plus de vingt-cinq ans.Le rêve de créer une machine capable de comprendre et de réexprimer le langage humain reste à réaliser, malgré les incroyables progrès de l’informatique. Les langues sont extrêmement complexes et impliquent des connaissances non dites et des processus de pensée inexplorés.L’intelligence artificielle ne peut tout simplement pas égaler la capacité d’un humain à comprendre le contexte et les nuances de la communication. Des ordinateurs de plus en plus puissants nous ont permis d’accumuler de grandes masses de données qui peuvent être gérées par des programmes informatiques de traduction automatique (« MT “) basés sur des règles et/ou statistiques. Google Translate est un exemple bien connu de traduction automatique statistique : il rassemble du texte qui semble être parallèle entre deux langues, puis applique une analyse statistique pour décider quelles parties de la langue A et de la langue B correspondent l’une à l’autre.La qualité est supérieure dans les langues populaires en raison du volume élevé de contenu disponible à indexer.Les progrès de la qualité ont atteint un plateau, mais des améliorations futures sont attendues principalement en raison de vitesses de traitement plus rapides et de la croissance continue du contenu indexé. Selon l’appariement de langues, une traduction Google gratuite peut vous donner « une idée ” de ce que dit le texte source, mais vous seriez mal avisé de l’utiliser pour autre chose. Il existe trois principaux types de traduction automatique en usage aujourd’hui :
- Traduction de base basée sur des règles qui tient compte de l’orthographe et de la grammaire des langues source et cible.Différents outils sont utilisés en fonction de combinaisons linguistiques et de domaines spécifiques ;
- Traduction statistique basée sur des probabilités et des densités créées à partir de grands ensembles de données ;
- Traduction hybride qui utilise des outils avancés de technologie assistée par ordinateur (TAO) pour former des systèmes basés sur des règles et/ou statistiques afin de produire automatiquement des traductions de meilleure qualité.
Ce document a été conçu pour améliorer vos connaissances sur la traduction automatique et sur la façon don’t elle peut être utilisée efficacement dans les affaires ou à des fins personnelles.
Arrière-plan
La connaissance humaine est inégalée
Que vous vous en rendiez compte ou non, vous utilisez plusieurs types de connaissances pour bien comprendre un seul message dans votre propre langue.Un système de traduction automatique (MT) aurait besoin de capacités similaires pour comprendre un message avant de pouvoir le réexprimer dans une langue différente ayant ses propres caractéristiques. En raison de la complexité des langues, la traduction automatique n’a pas encore atteint la qualité du travail produit par des traducteurs humains professionnels. Les connaissances linguistiques que les humains utilisent
- Connaissances de bon sens – souvent acquises par les expériences passées et l’intuition ;
- Connaissances morphologiques – formation des mots dans les langues source et cible ;
- Connaissances phonologiques – systèmes sonores des langues ;
- Connaissance pragmatique – ce que les mots signifient dans leur contexte ;
- Connaissance sémantique – ce que signifient les mots et les phrases indépendamment du contexte ;
- Connaissance syntaxique – règles et contraintes qui s’appliquent aux mots lors de la formation de phrases.
Pourquoi le marché veut toujours MT
Malgré les défis liés à l’adéquation de la traduction de qualité humaine, le marché de la traduction automatique devrait croître de plus de 20 % par an et atteindre 983,3 millions USD d’ici 2022 (Hexa Research, novembre 2015).Ils s’attendent à ce que les pressions du marché et les investissements dans la technologie progressent au point que les systèmes de traduction automatique produiront éventuellement des traductions avec un minimum d’erreurs et une meilleure cohérence grammaticale.Les gens font des prédictions similaires depuis des décennies en vain, mais nous nous rapprochons. Hexa prévoit que le modèle commercial de croissance de l’adoption de la traduction automatique sera basé sur le logiciel en tant que service, où les services sont hébergés dans le cloud et accessibles sur le bureau ou l’appareil mobile à l’aide d’une connexion sécurisée.Ce modèle suit l’une des grandes tendances de la communication d’entreprise qui est l’intégration du processus de traduction dans les plans de projet. Étant donné que le volume de contenu commercial à traduire augmente de manière incontrôlable, la traduction automatique est devenue impérative pour rendre le contenu disponible dans les langues régionales pour les utilisateurs du monde entier, mais elle fonctionne mieux dans certains domaines ou types de texte que dans d’autres. Malgré la demande de traduction automatique et ses avantages en termes de coûts, la traduction humaine est toujours préférée.
Avantages commerciaux potentiels
La traduction automatique (TA) peut être utile à votre entreprise dans les domaines où la vitesse est importante et la qualité n’est pas essentielle.Notre monde est animé par une messagerie et une collaboration constantes qui génèrent d’énormes quantités d’informations, don’t beaucoup ne nécessitent pas de traduction professionnelle de haute qualité.Voici quelques défis quotidiens que la traduction automatique peut aider à surmonter. Réduction des frais généraux Les départements de service client doivent souvent fournir des informations d’assistance multilingues pour les politiques, les processus ou les descriptions de produits.Pour des besoins de qualité minimum, les traductions peuvent être relues/révisées par un expert bilingue en la matière. Communication mondiale Les employés de différents pays ont souvent besoin de communiquer fréquemment par e-mail et de travailler en collaboration sur des documents internes, des présentations, des supports de formation et d’autres contenus.« L’usage interne ” est la clé ici. Productivité améliorée Lorsque le personnel doit traduire un contenu plus basique avec les mêmes ressources, vous pouvez ajouter la traduction automatique au flux de travail.Les gains de productivité peuvent atteindre 30 % lorsqu’ils sont correctement utilisés, mais une post-édition professionnelle appropriée est nécessaire. Commerce électronique et médias sociaux Les sites Web et les médias sociaux nécessitent un contenu en langue maternelle pour stimuler les ventes et l’engagement à l’échelle mondiale.La durée de conservation du contenu peut être courte, des versions à la demande et à faible coût sont donc nécessaires.Il devrait être évident qu’il s’agit de contenu généré par MT. Sécurité des informations Des solutions de traduction automatique sécurisées de classe entreprise protègent vos informations.Il est très tentant pour le personnel d’utiliser des services de traduction gratuits facilement disponibles sur Internet.Ce qui commence comme une tentative innocente d’économiser du temps et de l’argent pourrait s’avérer très coûteux si des informations sensibles tombaient entre de mauvaises mains.
Traduction automatique basée sur des règles
L’explication la plus simple de la traduction basée sur des règles (RBMT) est qu’elle utilise une grande collection de règles développées manuellement pour mapper un cadre de restructuration de la langue source à la langue cible. RBMT tient compte de l’orthographe et de la grammaire de la langue source et de la langue cible, et utilise des outils spécifiques en fonction des combinaisons de langues et des domaines.Les systèmes reposent sur des dictionnaires bilingues pour chaque paire de langues et des lexiques qui doivent être édités et manipulés par les utilisateurs pour améliorer la traduction. Les logiciels et les ordinateurs appliquent des règles complexes et transfèrent la structure grammaticale de la langue source dans la langue cible.Un outil spécifique peut bien fonctionner dans une langue ou un domaine, mais pas dans un autre.
Qualité
Des systèmes RBMT bien développés peuvent fournir des traductions automatisées raisonnablement bonnes avec des résultats prévisibles. La qualité dépend de l’investissement réalisé dans le développement et l’amélioration continue du système.Des professionnels hautement qualifiés sont nécessaires pour effectuer ce travail qui est coûteux et chronophage (processus manuel). Comme de plus en plus de règles sont ajoutées au fil du temps, les systèmes RBMT peuvent générer une ambiguïté pouvant entraîner une dégradation de la qualité.
Limites
RBMT nécessite une quantité incroyable d’ingénierie des connaissances.Plus précisément, cela nécessite des experts humains ayant une compréhension approfondie de la linguistique qui peuvent utiliser efficacement la technologie pour calculer une représentation abstraite. Il est difficile de mettre à l’échelle les systèmes RBMT et de développer une grande quantité de ressources grammaticales et lexicales appropriées pour un type de texte spécifique.
Développement au cours des premières années
L’histoire de la traduction automatique basée sur des règles (RBMT) montre clairement la difficulté à amener les machines à comprendre le contexte du matériel source et à le réexprimer dans d’autres langues. 1945-1954 Le premier point important dans le développement de (RBMT) est survenu en 1954 lorsque IBM et l’Université de Georgetown ont démontré que les concepts de rupture de code en temps de guerre et les théories de l’information sophistiquées pouvaient être informatisés pour établir des principes de langage naturel.La démonstration a utilisé un vocabulaire et une grammaire simples de manière si impressionnante qu’elle a lancé le financement du développement de la RBMT dans le monde entier. 1955-1965 Les systèmes RBMT consistaient en des dictionnaires bilingues où le texte source avait un ou plusieurs équivalents dans une langue cible, et des règles de base pour produire le bon ordre des mots dans la traduction.Les chercheurs se sont rapidement heurtés à des barrages routiers car les règles d’ordre syntaxique étaient complexes et il y avait trop d’exceptions et de variables (nuances linguistiques).Les documents traduits n’étaient utiles qu’à ceux qui avaient besoin de traductions rapides et qui pouvaient vivre avec des résultats de qualité brute. 1960-1969 En 1966, le gouvernement américain a publié un rapport du Comité consultatif sur le traitement automatique du langage (ALPAC) qui concluait que le RBMT était lent, imprécis et deux fois plus cher que la traduction humaine.L’investissement du gouvernement et des entreprises s’est déplacé vers le développement d’aides mécaniques pour les traducteurs (comme les dictionnaires bilingues automatisés) et la recherche fondamentale en linguistique informatique. Les années 1970 Une forte demande de RBMT est venue des communautés commerciales multinationales.Le marché voulait des systèmes de traduction assistée par ordinateur à faible coût capables de traiter la documentation administrative et technique vers et depuis une multitude de langues. Les années 1980 Les différentes avancées de différents pays ainsi que l’avènement des systèmes informatiques centraux ont donné aux ingénieurs une puissance de traitement incroyable et ont permis la création de traductions « indirectes ” où les traductions de base étaient enrichies d’une représentation intermédiaire comme les « bases de connaissances “.Les micro-ordinateurs et les logiciels de traitement de texte ont rapidement poussé le marché vers des systèmes de bureau moins chers pouvant être interconnectés avec des hôtes plus grands. Les années 1990 Le début des années 1990 a vu une augmentation de l’activité dans les applications pratiques, les stations de travail des traducteurs, les systèmes à langue contrôlée et à domaine restreint, et l’intégration de composants de traduction dans les systèmes d’information multilingues.Dans la dernière partie des années 1990, les éditeurs de logiciels ont introduit RBMT sur les ordinateurs de bureau.
Traduction automatique statistique
Comment une machine peut-elle apprendre ?
La traduction automatique statistique (SMT) considère la traduction du langage naturel comme un problème d’apprentissage automatique.Essentiellement, un ordinateur puissant peut « apprendre ” comment appliquer une logique générée statistiquement afin qu’une chaîne de mots du texte source dans une langue atterrisse sur une chaîne de mots bien formée dans la langue cible. Les statistiques sont basées sur des modèles de vraisemblance maximale et sont souvent basées sur l’ordre et la réorganisation des mots. Les différences d’ordre des mots expliquent plus de variations dans les performances SMT que tout autre facteur, il est donc essentiel de prédire statistiquement les mots dans la traduction et de décider de leur ordre.
Comment fonctionne SMT
En traduction statistique, l’idée de base est que chaque chaîne de texte source a une traduction dans une langue cible.Un professionnel qualifié utilisera les technologies SMT pour examiner un grand nombre de traductions bilingues connexes (corpus de textes) et attribuera une « pondération de probabilité ” à chaque paire de chaînes en fonction de la probabilité qu’un traducteur humain, lorsqu’il est présenté avec une chaîne de texte source spécifique , produirait une traduction contenant une chaîne spécifique dans la langue cible. Les pondérations de probabilité fournissent le cadre d’un tableau qui associe un nombre réel entre zéro et un à chaque appariement possible d’une chaîne de langue source et cible.Le nombre de permutations possibles est incroyablement grand, donc la table sera énorme et nécessitera un ordinateur puissant pour produire rapidement et avec précision des traductions.
Avantages et inconvénients
En revanche, le système SMT peut rapidement apprendre à traduire automatiquement à partir de données réelles.Et plus il y a de données, mieux c’est.Le modèle d’apprentissage peut également être appliqué à d’autres corpus, de sorte que vous pouvez créer le modèle une seule fois et l’utiliser dans plusieurs langues tout en les gardant indépendantes les unes des autres. En revanche, il est difficile de modéliser des associations de mots « désorganisées ” et des phénomènes de traduction complexes.SMT est construit sur des corpus parallèles et non sur des connaissances linguistiques.
Complexité
Les systèmes SMT doivent intégrer trois défis informatiques :
- Probabilité du modèle de langue
- Conditionnel au fait qu’un, deux, trois mots ou plus tendent à suivre ou à précéder un certain mot.Plus le corpus est grand, plus les estimations seront précises.
- Probabilité du modèle de traduction
- Basé sur la fertilité (nombre de mots générés à partir d’un mot source), la distorsion (prédit la position du mot cible) et les probabilités de traduction (nombre de phrases ou de phrases susceptibles d’être produites)
- Méthode de recherche qui maximise la qualité du produit traduit
- Un décodeur pour la traduction basée sur des phrases, hiérarchique et basée sur la syntaxe
Popularité
Depuis 2000, SMT a gagné en popularité et domine désormais la recherche sur la traduction automatique.Les principales raisons du succès sont :
- La disponibilité de grands corpus monolingues et bilingues ;
- Disponibilité de logiciels open source pour effectuer des processus SMT de base ;
- Disponibilité de métriques largement acceptées pour évaluer les systèmes.
Qualité et utilisation du SMT
La qualité d’un produit SMT est considérée comme inférieure à la traduction humaine.La qualité augmente proportionnellement à la taille du corpus parallèle utilisé. Google Translate (GT) est un système SMT largement connu qui peut aider un lecteur à comprendre le contenu général d’un texte en langue étrangère, mais il ne produira pas de traductions précises et a tendance à répéter textuellement le même mot qu’il est censé traduire. Les particuliers accèdent à GT depuis leur téléphone mobile ou leur ordinateur personnel lorsque la qualité de la traduction et la sécurité des données ne sont pas importantes.GT fonctionne au mieux lorsque l’anglais est la langue cible et que la langue source provient de l’Union européenne (UE). Les entreprises utilisent SMT lorsque l’échelle et le volume de travail sont trop importants pour être traités par des traducteurs humains, et que leur type de contenu ou d’utilisation le permet.
Traduction automatique hybride
La traduction automatique hybride (HMT) intègre les meilleures caractéristiques de RBMT et SMT pour offrir la combinaison idéale de qualité, vitesse, productivité et rentabilité. RBMT fournit des traductions prévisibles et cohérentes, une utilité inter-domaines et une grande efficacité.Les composants SMT apprennent à partir de la réalité monolingue et corpus multilingues et améliorer la qualité de la traduction dans des domaines spécifiques. Le système HMT est complété par des outils de technologie assistée par ordinateur (CAT) spécialement conçus pour être utilisés par des traducteurs humains afin de gagner du temps lors de la révision des traductions proposées par les moteurs HMT.Les résultats de la post-édition sont réintégrés dans le logiciel via le dictionnaire ou par une formation supplémentaire du système afin qu’il ne fasse jamais deux fois la même erreur.
RBMT et SMT ont des propriétés complémentaires
RBMT ET SMT ONT DES PROPRIÉTÉS COMPLÉMENTAIRES RBMT et SMT ont tous deux des avantages et des inconvénients, c’est pourquoi des modèles « hybrides ” ont émergé.Parfois, des moteurs MT basés sur des règles sont utilisés pour enrichir les ressources lexicales disponibles pour un décodeur SMT.Dans d’autres cas, des parties de l’infrastructure SMT sont utilisées, avec le traitement linguistique et la validation manuelle, pour étendre le lexique d’un moteur RBMT.Types courants de HMT : Multimoteur parallèle Ce modèle implique l’exécution de sous-systèmes RBMT et SMT en parallèle pour créer une architecture plus large.La sortie finale est générée en combinant la sortie des deux sous-systèmes. Multipasse en série Les traductions sont d’abord effectuées à l’aide d’un moteur basé sur des règles, puis des statistiques sont utilisées pour lisser/affiner la sortie.Cette approche tente d’améliorer une sortie de qualité inférieure du moteur RBMT. Guidé par les statistiques Cette approche utilise des données statistiques pour générer des règles lexicales et syntaxiques qui pré-traitent les données.Un deuxième ensemble de règles est utilisé pour post-traiter la sortie statistique afin d’exécuter des fonctions telles que la normalisation.La précision de la traduction dépend de la similitude du texte d’entrée avec le corpus d’apprentissage.
Qualité et utilisation du HMT
L’écart de qualité entre la traduction humaine et la HMT est encore assez important.HMT offre certaines améliorations de qualité par rapport aux systèmes RBMT et SMT autonomes hérités, mais la complexité de HMT entraîne des coûts plus élevés. Les systèmes HMT sont utilisés à la fois par les fournisseurs de services de traduction et les grandes entreprises, car ils permettent aux organisations de gérer les données, de réutiliser le contenu traduit et de créer une terminologie spécifique à un domaine.HMT dispose de capacités de personnalisation pour « créer sur mesure ” des modèles de traduction qui amélioreront la qualité de domaines spécifiques et répondront aux exigences de communication du monde numérique d’aujourd’hui.Par exemple, HMT peut rapidement apprendre à comprendre les informations en langue étrangère dans les e-mails, les pages Web, les présentations et la correspondance d’entreprise. Les avancées dans les nouvelles technologies SMT telles que la transformation linguistique (prétraitement des données), les technologies d’optimisation linguistique et les solutions de gestion terminologique permettent d’obtenir les mêmes améliorations de qualité offertes par HMT tout en réduisant le besoin de technologies héritées.
Résumé de la traduction automatique
- Les langues sont si complexes que la traduction automatique n’a pas été en mesure d’égaler la qualité de la traduction humaine professionnelle.
- MT est utile dans une variété de situations où la qualité n’est pas une préoccupation et la vitesse est importante.
- La traduction automatique continue de gagner en popularité en raison de la mondialisation de notre monde, de la création de contenu à grande échelle et de la vitesse limitée de la traduction humaine.
- La traduction automatique basée sur des règles peut fournir des traductions automatisées raisonnablement bonnes avec des résultats prévisibles, mais elle est difficile à mettre à l’échelle et nécessite une grande quantité d’ingénierie des connaissances.Les logiciels fonctionnent généralement bien dans une combinaison de langues ou dans un domaine plutôt que dans plusieurs.
- La traduction automatique statistique peut « apprendre ” à traduire à partir de données bilingues disponibles dans d’immenses volumes.Il n’y a pas de connaissance de la langue, donc les combinaisons de langues source et cible sont élevées.
- La MT hybride intègre les meilleures caractéristiques de la MT basée sur des règles et statistique, mais est plus coûteuse en raison de sa grande complexité.
- Quelle que soit la traduction automatique utilisée, la post-édition est nécessaire pour produire un travail de qualité.La quantité de post-édition requise nécessite encore le plus souvent l’utilisation de processus de traduction plus traditionnels.