Le National Institute of Standards and Technology (NIST) procède actuellement à l'évaluation d'une vingtaine de technologies de traduction automatique dans différentes langues et devrait livrer son palmarès d'ici un mois.

au sommaire


    La traduction automatique en quête d'efficacité : Google encore en tête ?

    La traduction automatique en quête d'efficacité : Google encore en tête ?

    Le nouveau système de GoogleGoogle, encore en développement, semble être particulièrement bien placé. Quasiment tous les systèmes de traduction en ligne (dont AOL, Alta VistaVista, Babblefish et Google) utilisent une technologie développée par Systran qui se fonde exclusivement sur des règles linguistiques.

    Les ingénieurs de Google ont choisi une approche qui s'appuie d'abord sur l'analyse statistique de traductions de documents de référence (comme ceux produits par l'ONU). Cette approche permet de trouver des correspondances, en fonction du contexte et pondérées par des probabilités, entre les mots, sans même connaître les langues. Cette première phase permet d'obtenir des résultats robustes en appliquant ensuite des règles linguistiques.

    Si prometteur qu'apparaisse ce nouveau système, l'approche statistique a ses faiblesses bien connues : à moins d'avoir vu des mots dans de multiples contextes, il est difficile de les traduire. Or le nombre de mots existants, éventuellement nouveaux, des langues vivantes fait qu'il y a toujours des mots non rencontrés.

    De plus, le problème de la traduction des noms propres entre des langues qui utilisent des alphabets différents reste délicat. Enfin, la comparaison entre logiciels constitue un domaine de recherche à lui seul. Il faut choisir des métriques et un ensemble de traductions parallèles de référence (ce que fait le NIST).

    Les résultats peuvent être trompeurs si elles ont été utilisées pour alimenter un logiciel de traduction statistique... Quoiqu'il en soit la traduction automatique a de beaux jours devant elle ; avec pas moins de deux tiers des internautes dont la langue maternelle n'est pas l'anglais et l'augmentation du nombre d'utilisateurs de pays comme la Chine ou l'Inde, les services de ce type seront sans doute de plus en plus sollicités (Systan traite déjà plus de 25 millions de pages web par jour).