摘要:En los últimos años ha habido importantes avances en el campo de la detección de plagio automática. Uno de ellos es la detección de plagio translingüe, la cual trata de detectar el plagio entre documentos en diferentes idiomas. La mayoría de aproximaciones que existen para esta tarea hacen uso de diccionarios estadísticos para lidiar con las traducciones de las palabras de los documentos. Un diccionario estadístico nos proporciona, para una palabra dada, la lista de traducciones posibles con sus respectivas probabilidades. El objetivo de este trabajo es analizar el rendimiento del diccionario estadistico de la red semántica multilingüe BabelNet para la tarea de detección de plagio translingüe. En la evaluación comparamos sus resultados con los ofrecidos por un diccionario estadístico entrenado con el conocido modelo de alineamiento IBM M1, ambos utilizando el modelo estado del arte CL-ASA como base. Los resultados de los experimentos indican que BabelNet es una buena alternativa como diccionario estadístico.
其他摘要:In recent years there have been important advances in the field of automatic plagiarism detection. One variant is cross-language plagiarism detection, which tries to detect plagiarism between documents in different languages. Most of the existing approaches to this task make use of statistical dictionaries to deal with the translations of words in the documents. A statistical dictionary provides, for a given word, the list of possible translations with their respective probabilities. The objective of this paper is to analyze the performance of the statistical dictionary of multilingual semantic network - Babelnet for cross-language plagiarism detection. In the evaluation we compare its results with those offered by a statistical dictionary trained by the well-known IBM M1 aligment model, both using state-of-the-art model CL-ASA as a base. The results of the experiments indicate that Babelnet is a good alternative as statistical dictionary.