mar 8

Les annonces pleuvent en matière de traduction automatique.

Tantôt, c’est SDL Trados qui intègre plus de moteurs à la nouvelle version de son logiciel à mémoire de traduction ; tantôt c’est Google qui lance une version de son navigateur Chrome capable de traduire une page Web sans passer par une extension ; quand ce n’est pas Microsoft qui présente son futur téléphone-traducteur(1), ou Google (encore !) qui traduit le texte d’une photo(2)…

Et puis, dans cette jungle d’applications toujours plus business-centric, orientées vers la productivité totale (à défaut de qualité totale), on a de temps en temps un moment de respiration.

Quand quelqu’un se souvient, par exemple, que traduire c’est communiquer, et décide de lancer un application gratuite destinée à faire se parler Arabes et Occidentaux.

C’est ce que propose Meedan, un site qui traduit automatiquement les textes qui lui sont soumis avant de les faire relire par des êtres humains puis de les publier (dans cet ordre). Le site fonctionne à la façon d’un Wiki et se consacre à améliorer la compréhension des uns par les autres, et vice-versa(3). Bref, fait oeuvre utile. Pour de bon. Si vous voulez en savoir plus à ce sujet, lisez l’article que lui consacre Francis Pisani sur son blog, et, pourquoi pas inscrivez-vous comme traducteur volontaire !

(1)

(2)

(3)

fév 25

Le Monde publie aujourd’hui un article intéressant sur la question de la traduction automatique, où sont confrontés les points de vue de Google (qui annonce depuis peu de grandes ambitions dans ce domaine), de Systran, par la voix de son Directeur Marketing, Pierre Bernassau, et de Marie Candito, chercheuse spécialisée dans la question, enseignante à l’Université Paris Diderot (Paris 7).

Le sujet de l’analyse statistique et de l’analyse syntaxique, et de leurs limites (étendue du corpus pour l’une, structure linguistique du couple de langue pour l’autre) sont particulièrement bien mises en lumière.

fév 1

Le cycle des matinées découvertes de Systran Enterprise Server 7.0 a repris depuis le 27 janvier. Une nouveauté de taille : il est possible de s’inscrire à des présentations sur site (à La Défense) comme sur le Web (Webinaires). Les inscriptions se prennent directement auprès de Pierre Bernassau, le directeur Marketing (bernassau @ systransoft.com).

déc 11

Nous l’avions déjà mentionné il y a plusieurs mois, Google innove sans cesse  en matière de recherche « globale », et mixe ses technologies les unes aux autres afin d’en décupler leur puissance.

Depuis deux jours, il est ainsi possible, et très facile, d’afficher des résultats de recherche en provenance de plusieurs langues.

  1. Après avoir tapé sa requête initiale, on clique sur le lien intitulé « Afficher les options » qui se trouve désormais juste en dessous de la zone de recherche.
  2. Une zone verticale s’ouvre alors sur la gauche de l’écran, qui propose de nombreuses options de recherche, toutes intéressantes à explorer.
  3. La toute dernière, « interlangues », ouvre un cadre au-dessus du premier résultat de recherche. Les résultats eux-mêmes sont mis à jour en fonction des options de langue sélectionnées dans ce cadre.
  4. Concrètement, on choisit une ou plusieurs langues dans lesquelles Google effectue la recherche équivalente à ce qui a été tapé initialement après traduction automatique de l’expression de recherche.
  5. Les résultats en provenance de ces langues sont traduits dans la langue de départ, classés en fonction des habituels critères Google de référencement naturel et affichés. Chaque résultat signale clairement la langue d’origine.
  6. Lorsque l’on clique sur l’un des résultats, la page qui s’affiche a déjà été automatiquement traduite dans la langue de la requête initiale. Ce qui permet d’ailleurs de contrôler que les sites commerciaux internationaux ne font pas appel aux outils de traduction automatique pour générer leurs versions locales.

Honnêtement, il faut avouer que tout ceci est assez impressionnant. Et, malgré tout ce qu’on est habituellement enclin à penser de la traduction automatique, il faut reconnaître qu’elle est, dans ce cadre, utilisée à bon escient.

déc 8

Google est en train d’ajouter une fonction automatisée de sous-titrage aux vidéos publiées sur Youtube. La fonction sous-titrage existe déjà, mais l’utilisateur qui souhaite sous-titrer sa vidéo doit en taper le texte lui-même. Il sera bientôt possible (ça l’est déjà pour certaines vidéos des chaînes éducatives) d’obtenir un sous-titrage automatique, grâce à la technologie Google Voice, qui transcrit un enregistrement audio.

Quel rapport avec la traduction ? Eh bien, il est d’ores et déjà prévu, d’après cet article intéressant de Numérama, de rendre possible la traduction automatique des sous-titres avec Google Translate. Autrement dit, bientôt, pour sous-titrer une vidéo et la traduire, il suffira de la poster sur un compte Youtube privé, et de faire appel à ces fonctions automatisées.

D’ailleurs, Google a même prévu une vidéo de démonstration : regardez.

août 5

Le douzième Machine Translation Summit se tiendra cette année du 26 au 30 août au château Laurier, à Ottawa (Canada).

Réunissant scientifiques, éditeurs de logiciels de traduction automatique et utilisateurs de ces produits, cette conférence fait le point sur l’état de l’art. Tous les principaux acteurs sont présents : Promt, Systran, SDL, Terminotix, Language Weaver, Multicorpora, Common Sense Advisory, etc.

Une journée entière sera consacrée à des formations à l’utilisation de logiciels de traduction automatique, et une autre à l’évaluation des différents produits. En toure, de nopmbreux ateliers s’intéresseront à des sujets comme la post-édition de traductions automatiques, ou la collaboration entre mémoires de traduction, Traduction automatique et traducteurs. La liste des articles de recherche présentés est en elle-même très intéressante.

mai 25

Comme nous l’avions annoncé voilà quelque temps, Systran organise des sessions de présentation de Systran Enterprise Server 7. Cette nouvelle version constitue à n’en pas douter un tournant majeur pour le moteur de traduction automatique, grâce auquel l’entreprise de San Diego prend clairement l’avantage sur ses concurrents.

La raison ? Le moteur de traduction hybride associe l’analyse sémantique à l’analyse statistique et intègre un processus d’amélioration continue. Jusqu’à présent, Systran, comme @promt ou Reverso, reposait sur un système d’analyse sémantique. Le moteur analysait chaque phrase source et créait l’arbre syntaxique permettant de représenter ses composantes et les relations qui les unissent. Puis, chaque expression était traduite en faisant appel à un dictionnaire, et, une fois l’arbre entièrement traduit, le logiciel restituait la phrase cible. Dans ce mode de traduction automatisée, le plus courant, le dictionnaire constitue un élément central : plus il est complet, meilleur est le résultat. Pourtant, même avec des dictionnaires très fournis, il est presque impossible de produire une phrase cible totalement correcte.

Car l’usage consacre des expressions qui constituent des exceptions innombrables à l’analyse grammaticale traditionnelle, et le moteur d’analyse syntaxique ne sait pas les reconnaître. Lorsque, par exemple, on parle dans un manuel informatique de « la boîte de dialogue Propriétés de Mes documents », le lecteur identifie « Propriétés de Mes documents » comme un nom propre, complément du nom « boîte de dialogue », et ne tente pas d’analyser plus en détail. Le moteur, lui, va tenter d’attribuer une fonction à chacun des termes pris isolément : comment relier « Propriétés » et « Mes documents » à « boîte de dialogue » ? Pour que le dictionnaire permette d’identifier la solution correcte, il faut qu’il la contienne : il faudrait avoir mis à jour le dictionnaire sur la base du document avant de le traduire.

Lorsqu’on utilise un logiciel de traduction de ce type, il faut soit se résigner à obtenir un résultat imparfait soit, si l’on est traducteur soi-même, associer Mémoire de traduction, Traduction automatique, Traduction humaine, et mise à jour interactive du dictionnaire de traduction automatique. Cette combinaison d’outils et de savoir-faire se révèle très puissante : on obtient un texte cible d’une excellente qualité, en produisant 2 000 mots de l’heure, contre les habituels 2 500 mots par jour. L’auteur de ces lignes en a l’expérience, pour avoir utilisé cette méthode il y a plusieurs années pour assurer la traduction de deux ouvrages d’informatique de 1 500 pages chacun en quatre mois.

Le moteur de Systran Enterprise Server 7 continue bien sûr d’utiliser la méthode sémantique d’analyse des textes source. Mais il la complète avec la méthode d’analyse statistique, qui a été popularisée par Google Translate.

L’analyse statistique repose sur l’exploitation de corpus de traduction, qui permettent de déterminer quelle est la traduction la plus fréquemment utilisée pour une expression donnée. Autant un corpus généraliste est presque inexploitable, car il devrait comporter des milliards de phrases pour être utile (c’est un des aspects de la difficulté qu’éprouve Google Translate à fournir des résultats pertinents), autant un corpus spécialisé se révèle d’une efficacité redoutable. Vous traduisez des brevets ? Imaginez un moteur capable d’apprendre les règles à appliquer pour traduire des brevets en se basant sur toute votre production passée. Il y a de fortes chances qu’il produirait de bons résultats… si votre corpus d’origine est lui-même de bonne qualité (voir à ce sujet l’article SMT: undersantding the human factor, de Kirti Vashee, paru dans Multilingual en décembre 2008).

Lors de l’apprentissage du corpus, Systran Enterprise Server 7 crée des « modèles de traduction » qui complètent les « modèles de langue ». Ces modèles, propres au domaine de spécialisation couvert par le corpus, ont pour fonction de lever les ambiguïtés de traduction issues du moteur sémantique et d’améliorer la fluidité du texte cible. Ils sont d’autant plus efficaces qu’ils gèrent des sous-segments (chunks, expressions) et non des phrases entières. Or ce sont bien les sous-segments qui posent le plus de problèmes en analyse sémantique.

Une fois le document source traduit grâce à l’association de ces deux méthodes, il est mis à disposition dans un éditeur de texte. L’utilisateur peut alors le modifier, corriger la formulation, personnaliser les dictionnaires utilisés, préciser qu’il aurait fallu employer tel usage plutôt que tel autre, etc. Si l’utilisateur apporte des modifications aux dictionnaires, il peut ensuite demander une nouvelle traduction, qui prendra ses changements en compte. Mais il peut aussi tout simplement changer la phrase elle-même. Il corrige ainsi la Mémoire de traduction issue de l’alignement automatique entre les phrases du document source et leurs contreparties du document cible. Ces modifications une fois validées, la Mémoire peut être ajoutée au corpus, et sera analysée par le moteur d’analyse statistique. En fait, comme l’analyse de corpus est un processus assez long et consommateur de ressources, les Mémoires de traduction issues des traductions révisées n’y sont pas ajoutées automatiquement. C’est à l’utilisateur de décider, à un moment donné, d’enrichir son corpus existant de tous les travaux réalisés sur une période donnée, voire de créer un corpus entièrement nouveau.

La solution logicielle complète fonctionne sur un modèle client-serveur : les corpus sont stockés sur le serveur avec le moteur, qui est interrogé par des outils clients. Par exemple, le Gestionnaire de projets, qui traduit un ou plusieurs fichiers à la fois, contient une interface de post-édition bilingue, qui permet de réviser les ambiguïtés, d’afficher toutes les occurrences d’un terme dans le document, d’ajouter des mots ou des sens inconnus aux dictionnaires, de procéder à des extractions terminologiques, de créer des clichés de traduction qui mémorisent l’état courant de la traduction et autorisent des comparaisons ultérieures entre clichés, etc. Les autres outils permettent par exemple de traduire un texte sans quitter Microsoft Word, ou d’afficher une barre d’outils de traduction disponible pour toutes les applications.

Systran Translation Server 7 gère pour le moment plus de 20 domaines de spécialisation prédéfinis et 52 paires de langues bidirectionnelles, auxquelles vont bientôt s’ajouter 16 autres paires monodirectionnelles. Il devrait être disponible à la vente en septembre 2009, les prix étant bien entendu élevés, puisqu’il s’agit d’une solution destinée à permettre aux entreprises de traduire d’importants volumes de textes.

En associant ainsi analyse sémantique, analyse statistique, mémoires de traduction et traduction humaine, Systran se donne les moyens de faire rimer traduction automatique et qualité, et de peser sur le marché. La solution semble vraiment très prometteuse pour la traduction de nombreux documents longs traitant d’une thématique donnée : brevets, ouvrages spécialisés, réglementations,… le champ est vaste !

icon1 Par: Guillaume | icon2 Traduction automatique
icon4 25 mai 2009| icon33 Commentaires »
avr 30

Donald A. DePalma et Benjamin B. Sargent analysent dans Global WatchTower les effets probables de l’accord récemment annoncé par SDL et Language Weaver, selon lequel le premier distribuera désormais les produits du second (voir le communiqué de presse conjoint).

Jusqu’à présent, SDL ne disposait pas d’un moteur de traduction automatique statistique : SDL Translation Server (acquis à l’origine auprès d’Idiom) est un moteur syntaxique, à base de règles linguistiques. Language Weaver, en revanche, distribue un moteur de traduction statistique, qu’il vend en priorité aux administrations. L’accord de partenariat signé entre les deux sociétés permet à Language Weaver de pénétrer le monde des entreprises sans investir dans une force de vente dédiée, tandis que SDL bénéficie désormais d’un outil de traduction complémentaire de Translation Server et de Trados, ses autres solutions logicielles.

La grande question reste bien entendu l’intégration de tous ces produits : ce n’est pas parce que le même éditeur propose toutes les technologies de TAO qu’elles sont pour autant exploitables dans de bonnes conditions par ses utilisateurs.  L’article de Don DePalma souligne aussi d’autres aspects de ce partenariat, dont, par exemple, le fait que SDL n’est guère habitué à collaborer avec d’autres entreprises.

Ils examinent aussi l’effet sur les sociétés de localisation concurrentes, comme Lionbridge, mais n’évoquent pas des solutions logicielles directement concurrentes. Pourtant, Systran présente en ce moment la version 7 de son serveur d’entreprise, qui intègre en un seul produit un moteur de traduction syntaxique, un moteur statistique et un outil de mémoire de traduction. Nous vous en dirons bientôt plus sur la question.

avr 17

Jean-Luc Goudet a rédigé un excellent article de vulgarisation sur la traduction automatique, son historique, les principales techniques utilisables, leurs avantages et leurs inconvénients. Publié sur le site Futura Sciences, « Traduction automatique : les années où tout a changé » fait un très bon point de synthèse sur la question, clair et abondamment illustré.

Visiblement très alimenté par la documentation de Systran, l’article a le mérite de présenter les progrès de la technologie sans faire l’impasse sur les difficultés énormes qui attendent les éditeurs de logiciels à l’avenir. De fait, une fois combinées les technologies syntaxique et statistiques, il va être très ardu de progresser encore dans la restitution correcte des textes traduits par la machine. À moins que la nouvelle version de Systran ne recèle d’énormes suprises ? C’est ce que nous vous dirons bientôt.

icon1 Par: Guillaume | icon2 Traduction automatique
icon4 17 avr 2009| icon3Aucun commentaire »
avr 8

Un article de PC World, daté du 26 mars dernier, annonçait pour le 1er avril l’intégration à la messagerie électronique GMail de la fonction de traduction automatique Google Translate. Il se basait sur l’annonce selon laquelle Google présenterait une nouvelle fonctionnalité excitante le 1er avril lors d’un événement de relations publiques à Bruxelles. Dix jours après, il semble bien que l’interface de GMail, disponible en 52 langues, ne propose toujours pas de fonction « Traduction » lorsqu’on rédige un message, ou qu’on en reçoit un. Il n’empêche que c’est certainement dans les tuyaux…

Non, le 1er avril, Google s’est contenté d’annoncer StreetView en Belgique, de recevoir l’autorisation définitive des services de Bruxelles pour racheter DoubleClick, et d’ajouter des annonces en forme de poisson d’avril à sa longue collection : par exemple, le lancement de Google Paper, ou celui de Google Romance. Business as usual

« Précédent

copyright 2008 - 2010 © Anyword - Tous droits réservés