摘要:Les corpus parallèles sont la pierre angulaire de plusieurs technologies de traduction automatique et des efforts conséquents sont régulièrement portés afin d’en réunir de nouveaux. L’expérience montre que la stratégie visant à réduire l’intervention manuelle dans cet exercice n’est jamais la même d’un corpus à l’autre. Ce constat nous a amené à développer PARADOCS, un entremetteur de documents parallèles qui utilise les entités numériques des documents afin de les apparier. Un classificateur est entraîné à décider des documents parallèles et un moteur de recherche d’information est utilisé afin de réduire l’espace de recherche des paires de documents parallèles. Nous montrons l’efficacité de PARADOCS sur de nombreuses tâches avec de nombreuses paires de langues.