Corpus

Corpus trilingue public de l'OMC

Compte tenu de l'importance croissante de la recherche dans le domaine du traitement automatique du langage naturel, et notamment de la traduction automatique, mais aussi pour aider les traducteurs qui s'intéressent au commerce international, l'OMC souhaite ouvrir l'accès à son corpus trilingue public.

Le corpus mis à disposition contient la plupart des documents publics de l'OMC produits depuis la création de l'OMC en 1995 jusqu'en décembre 2018. Tous les documents ont été traduits par des traducteurs. Ces textes sont alignés phrase par phrase, de manière automatique, et contiennent des métadonnées qui sont indiquées dans le tableau ci-après. Même si la qualité de l'alignement est bonne, celui-ci n'a pas été vérifié et l'OMC ne peut donc pas garantir l'exactitude ou le caractère exhaustif des alignements.

ID

> N° d'identification du dossier

IdxID

> Dossier du fichier

SegID

> N° d'identification du segment

BTYear

> Année du bitexte

BTPath

> Chemin du bitexte (correspond à la collection et à la série)

BTName

> Nom du bitexte

SegSrc

> Texte source

SegTgt

> Texte cible

Match

> Nombre de phrase(s) du texte source/texte cible constituant ce segment

IdxDomain

> Nom du domaine

Le corpus public de l'OMC est disponible dans les trois combinaisons des langues de travail de l'OMC, dans les deux sens: anglais-espagnol, anglais-français et français-espagnol. Il comporte 22 fichiers (1 million de lignes chacun) et peut être téléchargé en format zip pour chaque paire de langue.

Télécharger le corpus

Avertissement et conditions d'utilisation du corpus trilingue public de l'OMC

L'utilisation du corpus trilingue public (anglais-espagnol-français) de l'Organisation mondiale du commerce (OMC) — quel que soit l'utilisateur, le contexte et le but — sera soumise aux clauses d'avertissement ci-après:

  • Le corpus trilingue public de l'OMC est mis à disposition sans garantie, explicite ou implicite, d'aucune sorte. Plus particulièrement, l'OMC ne fournit aucune garantie ni déclaration quant à l'exactitude ou au caractère exhaustif des renseignements contenus dans son corpus trilingue public, dans l'une quelconque de ses trois langues de travail, y compris la langue originale du document, ou en ce qui concerne les fonctionnalités, les métadonnées ou les logiciels incorporés dans le corpus.
  • En aucun cas l'OMC ne sera tenue responsable d'une perte, charge, ou d'un dommage ou préjudice quelconque (y compris dans le cadre d'une procédure pénale) résultant prétendument de l'utilisation de son corpus trilingue public. L'utilisation de ce corpus se fait exclusivement aux risques de l'utilisateur. L'utilisateur reconnaît et accepte spécifiquement que l'OMC n'est pas responsable du comportement d'un utilisateur. Si un utilisateur n'est pas satisfait par l'un des matériels fournis dans le corpus, la seule mesure qu'il puisse prendre est de cesser de l'utiliser.
  • Lorsqu'il utilise le corpus trilingue public de l'OMC, l'utilisateur doit indiquer l'OMC en tant que source d'information.
  • Rien dans le présent document ne constituera ni ne sera considéré comme étant une limitation ou une dérogation expresse ou implicite concernant les privilèges et immunités de l'OMC, qui sont spécifiquement réservés.

Partager


  

Des problèmes pour visualiser cette page?
Veuillez écrire à [email protected] en indiquant le système d’exploitation et le navigateur que vous utilisez.