首页    期刊浏览 2025年08月13日 星期三
登录注册

文章基本信息

  • 标题:Analizar las diferencias de vocabulario entre corpus sin los tests Chi-cuadrado y Log-likelihood
  • 其他标题:Getting rid of the Chi-square and Log-likelihood tests for analysing vocabulary differences between corpora
  • 本地全文:下载
  • 作者:Yves Bestgen
  • 期刊名称:QUADERNS DE FILOLOGIA - ESTUDIS LINGÜÍSTICS
  • 印刷版ISSN:2444-1449
  • 出版年度:2017
  • 卷号:22
  • 期号:22
  • 页码:33-56
  • DOI:10.7203/qf.22.11299
  • 出版社:Universitat de València
  • 摘要:Els tests de Log-likelihood i khi-quadrat són probablement els tests estadístics més utilitzats en la lingüística de corpus, especialment quan la recerca té per objecte descriure les variacions lèxiques entre diferents corpus. No obstant açò, precisament perquè aquest ús específic de khi-quadrat no és vàlid, els resultats significatius que produeix són massa significatius. Aquest treball explica l'arrel del problema (és a dir, la no-independència de les observacions), les raons per les quals les solucions més freqüents no són acceptables i quin tipus de test estadístic hauria de ser utilitzat en el seu lloc. Es presenta una anàlisi de corpus sobre les diferències lèxiques entre anglès britànic i anglés americà per a demostrar el problema i confirmar l'adequació de la solució proposada. L'última secció d'aquest article presenta els comandos que es poden utilitzar en WordSmith Tools per a obtenir les dades necessàries per als tests adequats, així com un senzill procediment en R, un programa estadístic gratuït i fàcil d'instal·lar que realitza aquests tests.↓Los tests de log-likelihood y chi-cuadrado probablemente sean las pruebas estadísticas más populares utilizadas en la lingüística de corpus, especialmente cuando la investigación tiene como objetivo describir las variaciones léxicas entre corpus distintos. Sin embargo, dado que este uso específico del chi-cuadrado no es válido, produce demasiados resultados significativos. Esta contribución explica el origen del problema (es decir, la no independencia de las observaciones), los motivos por los cuales las soluciones habituales no son aceptables y qué clase pruebas estadísticas deben ser utilizadas en su lugar. Se ha realizado un análisis de corpus sobre las diferencias léxicas entre el inglés británico y el inglés americano para mostrar el problema y confirmar la adecuación de la solución propuesta. La última sección presenta las órdenes que pueden darse a WordSmith Tools, un programa informático muy popular en el procesamiento de corpus, a fin de obtener los datos necesarios para las pruebas adecuadas, así como un procedimiento muy fácil de usar en R, un paquete estadístico gratuito y fácil de instalar, que realiza estas pruebas.
  • 其他摘要:Log-likelihood and Chi-square tests are probably the most popular statistical tests used in corpus linguistics, especially when the research is aiming to describe the lexical variations between corpora. However, because this specific use of the Chi-square test is not valid, it produces far too many significant results. This paper explains the source of the problem (i.e., the non-independence of the observations), the reasons for which the usual solutions are not acceptable and which kinds of statistical test should be used instead. A corpus analysis conducted on the lexical differences between American and British English is then reported, in order to demonstrate the problem and to confirm the adequacy of the proposed solution. The last section presents the commands that can be used with WordSmith Tools, a very popular software for corpus processing, to obtain the necessary data for the adequate tests, as well as a very easy-to-use procedure in R, a free and easy to install statistical software, that performs these tests.
  • 关键词:diferències lèxiques entre corpus;test de remostreig;WordSmith Tools;anglès britànic i americà;diferencias léxicas entre corpus;test de remuestreo;Wordsmith tools;inglés británico y americano
  • 其他关键词:lexical differences between corpora;resampling test;WordSmith Tools;British and American English
国家哲学社会科学文献中心版权所有