首页    期刊浏览 2024年12月01日 星期日
登录注册

文章基本信息

  • 标题:Ajout de nouveaux noms propres au vocabulaire d’un système de transcription en utilisant un corpus diachronique
  • 本地全文:下载
  • 作者:Irina Illina ; Dominique Fohr ; Georges Linarès
  • 期刊名称:Traitement Automatique des Langues
  • 印刷版ISSN:1248-9433
  • 电子版ISSN:1965-0906
  • 出版年度:2014
  • 卷号:55
  • 期号:2
  • 页码:1-25
  • 语种:French
  • 出版社:ATALA - Assoc Traitement Automatique Langues
  • 摘要:Les noms propres sont souvent indispensables pour comprendre l’information contenue dans un document. Notre travail se concentre sur l’augmentation automatique du vocabulaire d’un système de transcription automatique de la parole (RAP) à partir d’un corpus diachronique. Nous faisons l’hypothèse que certains noms propres apparaissent dans des documents relatifs à la même période temporelle et dans des contextes lexicaux similaires. Trois méthodes de sélection de noms propres sont proposées pour augmenter de façon dynamique le vocabulaire en utilisant des informations lexicales et temporelles. Les méthodes sont fondées sur des statistiques de cooccurrences dans des fenêtres de taille fixe, sur l’information mutuelle et sur le modèle vectoriel. Différents paramètres de sélection de noms propres sont également étudiés afin de limiter l’augmentation du vocabulaire. Les résultats de reconnaissance montrent une réduction significative du taux d’erreur de noms propres en utilisant un vocabulaire augmenté.
  • 其他摘要:Proper names are usually keys to understand the information contained in a document. Our work focuses on increasing the vocabulary size of a speech transcription system by automatically retrieving proper names from contemporary diachronic text corpus. We assume that some proper names appear in documents relating to the same time period and in similar lexical contexts. We proposed methods that dynamically augment the automatic speech recognition system vocabulary using lexical and temporal features. Three proposed selection methods are based on co-occurrences statistics inside windows of fixed size, on mutual information and on vector space model. Different metrics for proper name selection in order to limit the vocabulary augmentation are studied. Recognition results show a significant reduction of the proper name error rate using augmented vocabulary with retrieved proper names.
国家哲学社会科学文献中心版权所有