首页    期刊浏览 2024年10月06日 星期日
登录注册

文章基本信息

  • 标题:SxPipe 2 : architecture pour le traitement présyntaxique de corpus bruts
  • 本地全文:下载
  • 作者:Benoît Sagot, Pierre Boullier
  • 期刊名称:Traitement Automatique des Langues
  • 印刷版ISSN:1248-9433
  • 电子版ISSN:1965-0906
  • 出版年度:2008
  • 卷号:49
  • 期号:2
  • 出版社:ATALA - Assoc Traitement Automatique Langues
  • 摘要:Cet article présente SxPipe 2, chaîne modulaire et paramétrable dont le rôle est d’appliquer à des corpus bruts une cascade de traitements de surface. Préalable nécessaire à une possible analyse syntaxique, ils peuvent également servir à préparer d’autres tâches. Développé pour le français mais également pour d’autres langues, SxPipe 2 comprend, entre autres, divers modules de reconnaissances d’entités nommées dans du texte brut, un segmenteur en phrases et en tokens, un correcteur orthographique et reconnaisseur de mots composés, ainsi qu’une architecture originale de reconnaissance de motifs non contextuels, utilisée par différentes grammaires spécialisées (nombres, constructions impersonnelles...). Nous présentons les fondements théoriques des différents modules, leur mise en œuvre pour le français et pour certains une évaluation quantitative.
国家哲学社会科学文献中心版权所有