Les langues romanes tiennent colloque

Vendredi 30 avril se tient à l’OIF* une rencontre intitulée Présence, poids et valeur des langues romanes dans la société de la connaissance.

Cette manifestation réunira divers spécialistes latins d’Europe pour faire l’état de l’observation des langues romanes dans différents domaines du savoir. En effet, les langues romanes, malgré leur présence importante dans le monde, sont largement sous-représentées sur le Web ou dans les publications de travaux de recherche : même les institutions européennes privilégient l’anglais. C’est ce phénomène qu’il s’agit d’expliquer et de mesurer pour, à terme, en inverser la courbe d’évolution.

Organisés par l’Union Latine en collaboration avec l’Organisation Internationale de la Francophonie, la Délégation générale à la langue française et aux langues de France, l’Observatoire européen du plurilinguisme, la Société française de terminologie, l’Institut Ramón Llull et l’association Diversum, les débats promettent d’être intéressants.

*13 Quai André Citroën, Paris 15.

Les entreprises attendent la traduction automatique de qualité humaine

La traduction automatique n’en finit pas de faire la Une de l’actualité. C’est d’abord SDL qui publie pour la deuxième année consécutive son étude sur les tendances en matière de traduction au sein des grandes entreprises.

Les grandes entreprises adoptent la traduction automatique
Résumant 228 entretiens avec des représentants de Wolter Kluwer, Hewlett-Packard, Kellog’s, Garmin ou Nokia, principalement aux Etats-Unis et en Europe, l’étude mesure l’intérêt pour la traduction automatique au sein des grands groupes. On y découvre par exemple que 17% des entreprises interrogées utilisent déjà la traduction automatique tandis que 11% prévoient de le faire à brève échéance, tandis que 30% n’y font pas appel pour des raisons de qualité insuffisante. Les principaux utilisateurs se recrutent dans le secteur informatique, alors que les entreprises des médias sont les plus méfiantes en matière de qualité.

La question de la qualité est très intéressante, car lorsqu’on interroge les sondés sur leurs attentes en la matière, 60% d’entre eux répondent qu’ils souhaitent une qualité identique à celle délivrée par des humains. Et quand on leur demande s’ils ont envisagé post-éditer des traductions générées automatiquement, ils sont 35% à y avoir réfléchi pour finalement abandonner l’idée, alors que 30% exploitent ou mettent en place une solution de post-édition. Les langues majoritairement concernées par la traduction automatique sont les quatre langues majeures d’Europe (français, italien, allemand et espagnol). Il semble que les grandes entreprises envisagent de plus en plus sérieusement de mettre en place des solutions de traduction automatique post-éditée, en ayant pour moteur le gain de temps et d’argent, au moins dans les grandes langues.

Systran analyse le corpus de l’entreprise
Au même moment, Systran complète sa solution de traduction automatique avec Systran Traning Server, qui comporte Training Manager et Corpus Manager. Ces deux logiciels encadrent Systran Enterprise Server, et lui permettent de s’entraîner sur des corpus thématiques de textes (typiquement, des mémoires de traduciton). Le moteur de Systran est en mesure d’analyser les acquis linguistiques qu’il parcourt et d’en déduire les règles qui ont présidé à la construction des phrases cibles par comparaison entre les traductions automatiques et les traductions appartenant au corpus. Il crée alors un modèle ad-hoc qu’il appliquera lors de la traduction des prochains textes (pour plus détails, voir ici). Dans le même temps, son extracteur terminologique analyse les phrases pour en sortir les termes récurrents et construire automatiquement un dictionnaire (éditable à souhait).

Évidemment, la qualité de sortie du moteur de traduction est bien meilleure, puisque le système associe l’analyse syntaxique traditionnelle, personnalisée par les dictionnaires de l’entreprise cliente, avec l’analyse statistique, personnalisée par les modèles construits sur la base des corpus de l’entreprise. En fin de processus, le texte se présente sous la forme d’un tableau entièrement modifiable, et le produit de l’opération de post-édition est enregistré dans une mémoire de traduction qui peut être ajoutée au corpus à l’aide de Corpus Manager. On entre alors, théoriquement, dans une boucle d’amélioration continue. Et c’est sans doute la raison pour laquelles plusieurs agences de traduction ont déjà fait l’acquisition de la solution complète. Deux obstacles, toutefois, à une généralisation d’une solution aussi aboutie : le prix (qui se compte en dizaines de milliers d’euros), et la puissance nécessaire aux PC chargés d’exécuter les moteurs d’analyse (16 Go de mémoire vive conseillés…). Il ne serait d’ailleurs pas surprenant de voir apparaître d’ici quelques mois une version online de type SaaS, accessible par abonnement à un prix forfaitaire, ou… calculé au mot.

Des agences de traduction… automatique ?
Les agences de traduction constituent désormais une cible de choix pour la distribution des solutions automatisées de traduction. On ne s’étonnera donc pas que Promt, le grand rival de Systran, lance PROMT Language Service Provider 9.0, destiné aux agences. Intégrable aux outils à mémoire de traduction, PROMT LSP 9.0 partage en réseau les dictionnaires personnalisés et les mémoires de traduction, prend en charge les formats de fichiers standards de la profession (XLIFF, TBX, TMX…), comporte un système de contrôle qualité statistique de type QA, et dispose d’API qui permettent de faire appel à ses fonctionnalités à partir d’autres programmes développés sur mesure. Une telle solution permet d’envisager de systématiser une approche de la traduction qui associe les mémoires, la traduction automatisée, et la traduction humaine.

Les agences qui traduisent en interne ont de quoi s’intéresser à une telle approche, car elle permet d’associer qualité élevée et prix bas. Il y a même de quoi envisager de ré-internaliser la traduction pour certaines langues. Pourquoi ? Parce qu’on passe d’une productivité de 2000 mots relus par jour à une capacité de 1000 mots relus par heure ! Pour une qualité comparable, puisque c’est bien le traducteur humain, formé et expérimenté, qui contrôle et finalise le travail. Evidemment, la compétence mise en oeuvre par le traducteur n’est pas la même lorsqu’il traduit lui-même ou lorsqu’il prépare le texte source, personnalise le dictionnaire, contrôle la traduction automatique et l’édite. Dans le second cas, il concentre son apport sur la pertinence de sa compréhension du sens d’origine, le mécanisme linguistique et la valeur ajoutée de la formulation finale. C’est le coeur de métier du traducteur, ce que la machine ne peut pas modéliser.

Toujours plus de textes à traduire… pour les humains !
C’est bien pour cela que le blog Global Watchtower prédit que la généralisation des outils de traduction automatique, au premier rang desquels Google Translate, va accroître, et non réduire, la demande en matière de traducteurs humains. Et de rappeler quelques vérités essentielles de notre métier, à commencer par le fait qu’une entreprise prend un risque en responsabilité lorsqu’elle émet un document vers l’extérieur, et que ce risque est accru lorsque la diffusion est dirigée vers un pays/une langue étrangère au donneur d’ordre. Par conséquent, il ne saurait y avoir de compromis en matière de qualité, c’est-à-dire en matière d’exactitude du message délivré.

Si Google Translate fournit un résultat satisfaisant dans certains cas (comme dans cet extrait du Petit Prince*), il est catastrophique dans d’autres (comme dans cet exemple de texte français, traduit d’après l’anglais). Il est d’autant moins fiable qu’il n’est pas personnalisable par l’utilisateur. C’est d’ailleurs la raison pour laquelle les équipes de Google ne se contentent pas d’aligner une gigantesque masse de données générique, comme ils l’expliquent ici, , ou encore . Et bien sûr, il y a aussi Google Translator’s Toolkit, dont les textes alignés par des humains viennent améliorer gratuitement le moteur.

Lutter contre la pénurie de traducteurs
En fait, une double tendance se dessine : d’une part, un accroissement très important des volumes de textes à traduire, tiré par l’automatisation (voir l’étude de Language Weaver) et, dans le même temps, une exigence accrue en matière de qualité de traduction. Exigence nourrie par la méfiance des clients à l’égard des traducteurs humains qu’ils suspectent, parfois à raison, de refourguer, en la faisant payer, la production de Google. Car il est vrai que les « mauvaises pratiques » sont une des plaies de notre profession, et l’amateurisme** (ou la malhonnêteté) de quelques uns ruine l’image des vrais professionnels. N’est-ce pas, au fond, la raison pour laquelle les grandes institutions (Europe, ONU, Gouvernement Canadien) déplorent une pénurie de traducteurs et collaborent à des programmes de formation (voir aussi cet article), voire les financent ?

Sans doute n’est-on plus très loin d’une segmentation du marché de la traduction (en tous les cas pour les langues majeures) où la traduction automatique à la Google contraindra peu à peu les amateurs à se retirer du marché ou à s’améliorer, tandis que les traducteurs professionnels exigeants conserveront la confiance de leurs donneurs d’ordre (et même, augmenteront leurs tarifs) pour des textes de taille moyenne, et que d’autres traducteurs, professionnels de la mécanique linguistique, personnaliseront en amont comme en aval des systèmes de traduction automatique de type Systran pour concilier volume, rapidité et qualité. Si cette répartition des tâches se réalisait, j’y verrais au moins deux avantages : l’élimination des textes traduits à la va comme je te pousse, qu’ils soient issus de traducteurs humains ou pas, et, par voie de conséquence, l’amélioration des revenus des professionnels, qui se feront -enfin !- payer à l’heure à des tarifs comparables à ceux des consultants.

——–
*On ne saurait tirer une conclusion générale sur la qualité de traduction de Google en s’appuyant sur Le Petit Prince, et cela pour trois raisons majeures. Un, il s’agit d’un texte fluide, simple, extrêmement bien rédigé, donc facile à analyser pour un moteur. Deux, ce texte fait partie des mmonuments de la littérature mondiale et, à ce titre, il a toutes les chances d’avoir été intégré au corpus d’entraînement de Google, c’est-à-dire de faire partie des références que le moteur interroge avant de renvoyer une réponse. Trois, il n’est absolument pas représentatif de ce qui est envoyé en traduction par les entreprises clientes.
**Il faudra un jour enquêter sur les mauvais côtés du statut d’auto-entrepreneur.