文章基本信息

标题：A PCA and SPCA based procedure to variable selection in agriculture
本地全文：下载
作者：Juscelino Izidoro de Oliveira Jr ; José Carlos Ferreira da Rocha ; Alaine Margarete Guimarães 等
期刊名称：Revista Brasileira de Computação Aplicada
电子版ISSN：2176-6649
出版年度：2015
卷号：7
期号：1
页码：30-41
语种：English
出版社：Universidade de Passo Fundo (UPF)
摘要：A mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos em que há overfitting. Uma forma de reduzir a dimensionalidade dos dados e a complexidade da amostra é selecionar os atributos que são relevantes para a descrição do fenômeno de interesse. Este trabalho apresenta um procedimento que combina métodos de busca e análise de componentes principais supervisionada e não supervisionada para selecionar variáveis. O procedimento remove as variáveis irrelevantes ou com pouca influência sobre a variação dos dados e avalia o impacto da seleção sobre tarefas de regressão e classificação. Sempre que possível, o número de variáveis selecionadas é aquele que atende aos requerimentos da complexidade da amostra. O procedimento foi testado na seleção de variáveis para indução de modelos lineares multivariados e redes neurais artificiais mediante uma base de dados de agricultura de precisão. O procedimento proposto permite uma solução de custo-benefício entre a redução da dimensionalidade e a acurácia do modelo.
关键词：Mineração de dados agrícolas;seleção de variáveis;complexidade da amostra