摘要:A identificação e a classificação semântica automáticas de entidades mencionadas são tarefas de especial relevância para variadas aplicações do processamento da língua natural, tais como a tradução automática, a extracção de informação ou os sistemas de resposta a perguntas. O presente artigo descreve a adaptação e implementação de diversas ferramentas de código aberto para a identificação e classificação dos seguintes tipos de entidades em galego: (i) datas, (ii) numerais, (iii) quantidades e (iv) nomes próprios. A análise dos três primeiros tipos de entidades realiza-se com o software FreeLing através de máquinas de estados finitos. Para a identificação de nomes próprios comparam-se duas estratégias: (i) a utilização de máquinas de estados finitos e (ii) métodos de aprendizagem automática. Finalmente, a classificação semântica dos nomes próprios é realizada com um sistema baseado em regras e recursos obtidos automaticamente. O artigo mostra um conjunto de avaliações para cada um dos módulos apresentados, disponibilizados com licenças livres.
其他摘要:Automatic named entity recognition and classification are important tasks for many natural language processing applications, such as machine translation, information extraction or question-answering systems. This paper describes the adaptation and implementation of several open-source systems for the identification and classification of the following named entities in Galician: (i) dates, (ii) numerals, (iii) quantities and (iv) proper nouns. Analysis of the first three types of named entities is performed with the software FreeLing, using finite-state automata. For the proper noun recognition task, two methods were compared: (i) finite-state automata and (ii) machine learning models. Finally, the semantic classification of proper nouns was carried out with a rulebased system that takes advantage of automatically obtained resources. This paper shows some evaluations for each tool, all available under free licenses.
关键词:Processamento da língua natural; reconhecimento de entidades mencionadas; galego;Natural language processing; named entity recognition and classification; Galician