摘要:Cet article de synthèse se situe dans le contexte général de l’extraction d’information et se focalise plus particulièrement sur l’extraction d’événements à partir de textes. Récemment, les approches historiques fondées d’abord sur des règles lexico-syntaxiques puis sur des classifieurs supervisés ont laissé la place à des approches neuronales, à la fois plus intégrées et moins dépendantes de larges ensembles de traits linguistiques extraits a priori, ce qui permet de limiter les phénomènes de propagation d’erreurs. Différentes architectures ont été ainsi développées en privilégiant le niveau phrastique, à l’instar des méthodes plus anciennes. Cependant, la complexité de la tâche ne permettant pas de résoudre l’ensemble des ambiguïtés à ce niveau, nous présentons aussi plusieurs approches visant à l’améliorer : approches d’augmentation de données, jointes et globales. Enfin, nous proposons une synthèse des performances des différents choix de modélisation évalués sur le jeu de données ACE 2005.
其他摘要:This survey takes place in the general context of information extraction and presents more particularly the successive approaches to supervised event extraction from texts. The first rule-based systems and the classical statistical methods use complex and domain-dependent representations that are prone to error propagation. In response to these problems, recent neural network systems using embeddings have linked their success to the absence of the preprocessing steps producing these errors. Among those approaches, different architectures have been proposed to solve the task at the sentence level. However, the task complexity hinders the ability to resolve all ambiguities at this level. Therefore, we identify three ways to enhance the local performance: data augmentation, joint and global inference. Finally, the different design choices presented are compared through an evaluation on the ACE 2005 dataset.