摘要:Nos últimos anos, e-mails spams têm-se tornado um importante problema com enorme impacto econômico para a sociedade. Felizmente, existem métodos capazes de detectar automaticamente a maioria dessas mensagens, sendo que as técnicas mais empregadas são baseadas na Teoria da Decisão Bayesiana. Por outro lado, grande parte das abordagens probabilísticas apresenta uma dificuldade: a manipulação de dados em um espaço com alta dimensionalidade. Para contornar esse problema, muitas técnicas de seleção de termos têm sido propostas na literatura. Neste artigo, revisamos os métodos mais populares empregados como técnicas para seleção de termos em conjunto com sete modelos diferentes de filtros anti-spam Naive Bayesianos.
其他摘要:In recent years, e-mail spam has become an increasingly important problem with a big economic impact in society. Fortunately, there are different approaches able to automatically detect and remove most of these messages, and the best-known ones are based on Bayesian decision theory. However, the most of these probabilistic approaches have the same difficulty: the high dimensionality of the feature space. Many term selection methods have been proposed in the literature. In this paper, we revise the most popular methods used as term selection techniques with seven different versions of Naive Bayes spam filters.
关键词:Ciência da Computação; Informática;Redução de dimensionalidade; Filtragem de spams; Aprendizagem de máquina