On appelle corpus multilingues des corpus électroniques constitués de groupes de textes, généralement des textes source et leurs traductions (effectuées manuellement). L’alignement de corpus signifie la mise en correspondance de ces textes multilingues, c’est-à-dire un stockage conjoint des textes originaux avec leurs traductions existantes, utilisés parmi d'autres à des fins d’automatisation de certaines étapes de la traduction ou d’enrichissement de lexiques. L’alignement s’appuie sur le repérage d’un certain nombre d’éléments d’un type défini (chapitres, paragraphes, phrases, syntagmes, mots ou morphèmes) et la création de liens entre ces éléments dans le texte original et leur traduction dans les autres versions.

Parmi ces éléments venant à l'assistance de l'alignement de textes, on parlera dans cet article de la dite entité nommée, "séquence lexicale faisant référence à une entité du monde concret" comme définie par Thierry Poibeau. La préparation à l'alignement consiste à mettre en rapport ces entités nommées (par exemple les dates, les noms de lieu, les noms de personne ou d'organisme) reconnues dans les différentes traductions du même texte-source. Les entités nommées repérées servent par la suite comme points d’ "ancrage" sur lesquels s’appuient des méthodes statistiques d’alignement au niveau des phrases, des paragraphes…

UNITEX est un logiciel utilisé, parmi d'autres, pour la reconnaissance des "entités nommées". UNITEX reconnaît des entités linguistiques en usant d'un ensemble de schémas traitant de phénomènes linguistiques isolés, à l'aide de repères grammaticaux, morphosyntaxiques et lexicaux. Les repères lexicaux peuvent être des amorces telles que "le ministre", pour la reconnaissance d'un nom de personne, ou "le mont", pour la reconnaissance d'un nom de lieu. Un schéma simple de reconnaissance d'un nom de personne est par exemple "Monsieur ou Madame, suivi d'un mot commençant par une majuscule, puis éventuellement suivi par un deuxième mot commençant par une majuscule". Des entités nommées susceptibles d'être reconnues par ce schéma sont "Monsieur Zola", "Monsieur Emile Zola", "Madame Marie", "Madame Marie Curie"... L'utilisateur définit manuellement ce type de schémas (appelés "graphes"), à l'aide d'UNITEX, puis les projète sur le texte pour extraire les informations qui intéressent son étude.

L'extraction est assistée par un ensemble de dictionnaires de noms propres ou de syntagmes nominaux, souvent comportant des informations grammaticales, sémantiques et flexionnelles. Un tel dictionnaire est intégré au logiciel, mais l'utilisateur peut également définir, en fonction de son texte et de son domaine de travail, des dictionnaires isolés, par exemple pour les noms de mois et de jour, les noms de famille et prénoms, les noms géographiques, les noms des personnages s'il s'agit d'un roman...

Chaque langue pose des problèmes spécifiques au répérage des entités nommées, dépendant de ses particularités, qu'elles soient grammaticales, syntaxiques, orthographiques, lexicales ou autres.

Références:
-Thierry Poibeau, Extraction automatique d'information: Du texte brut au web sémantique, 2003, éd. Lavoisier.
-Logiciel UNITEX: http://www-igm.univ-mlv.fr/~unitex/

Marina's Homepage:
http://www.inamarr.com

Comments on this article

Knowledgebase Contributions Related to this Article

No contributions found.

Want to contribute to the article knowledgebase? Join ProZ.com.

ProZ.com Translation Article Knowledgebase

Alignement de corpus multilingues, repérage d'entités nommées et UNITEX

Your current localization setting

Select a language

ProZ.com Translation Article Knowledgebase

Alignement de corpus multilingues, repérage d'entités nommées et UNITEX

You have native languages that can be verified

Your current localization setting

Select a language