摘要:A pesar de que existe común acuerdo en que los verbos cumplen, como categoría lingüística (i.e.gramatical, morfológica y semántica), un rol central en las lenguas humanas, su estudio ha quedado relegado casi exclusivamente al estudio de la gramática. A partir del uso de herramientas computacionales, el objetivo de este trabajo es describir el comportamiento estadístico de los verbos, entendidos como unidades lexicográficas lemas) que presentan una ocurrencia establecida en un corpus determinado. El corpus analizado en esta investigación (Corpus PUCV-2003) está constituido por tres registros principales (el corpus técnico científico, CTC, el corpus de literatura latinoamericana, CLL y el corpus de entrevistas orales, CEO) que en total superan el millón de palabras. Del corpus general, se extrajeron el total (3.558) de los tipos de lemas verbales con sus correspondientes casos. Los resultados obtenidos muestran las siguientes tendencias. En cuanto a la especialización de los verbos, existen muy pocos verbos que se pueden considerar especializados. En segundo lugar, existe una mayor comunalidad entre los verbos del CLL y del CEO, en comparación con los verbos del CTC contrastado con cualquiera de los otros registros. Finalmente, se observa que la mayor variabilidad verbal se da en el CLL y la menor variabilidad en el CEO; sin embargo, en este último se puede observar que hay un mayor porcentaje de verbos por cantidad total de palabras. De estos resultados se puede concluir que en las entrevistas orales se ocupan más verbos (que en los otros registros), pero que esos verbos tienden a ser los mismos.
其他摘要:Although there is a common agreement in that verbs fulfill, as a linguistic category (i.e. grammatical, morphological and semantic), a central roll in human languages, its study has been relegated almost exclusively to the grammar. By using computational tools, in this work the verbs are investigated as a lexicographical unit (lemmas) with a determined statistical behavior in a given corpus. The corpus analyzed in this research (Corpus PUCV-2003) is constituted by three main registers (the technical scientific corpus CTC, the corpus of Latin American Literature CLL and the corpus of oral interviews CEO), which altogether overpass a million of words. From the general corpus, the total (3.558) of the lemma types with their corresponding cases was extracted (tokens). The obtained results show the following tendencies. As far as the specialization of the verbs, there are very few verbs that can be considered as specialized. Secondly, there is a greater commonality between the verbs of the CLL and the CEO, in comparison with the verbs of the CTC contrasted with any other registers. Finally, it is observed that the greater verbal variability occurs in the CLL and the smaller variability in the CEO, nevertheless, in this last one there is a greater percentage of verbs by total amount of words. From these results it is possible to conclude that in the oral interviews more verbs are used (than in the other registers) although such verbs tend to be the same.