RésuméContexteL’Enquête sur la santé dans les collectivités canadiennes (ESCC) est l’une des plus grandes enquêtes transversales sur la santé de la population, avec plus de 130 000 sondés tous les deux ans et plus de 1,1 million de sondés depuis son début en 2001. Tant que l’enquête reste relativement cohérent, il y a des différences entre des cycles qui posent une challenge majeure pour analyser l’enquête au fil du temps.
InterventionUn paquet de programme appelécchsflowa été développé pour transformer et harmoniser les variables CCHS aux formats cohérents à travers plusieurs cycles de sondage. Une approche de science ouverte était utilisée pour maintenir la transparence, la reproductibilité et la collaboration.
RésultatsLe paquetcchsflowR développé utilisait les données d’enquête de l’ESCC entre 2001 et 2014. Les feuilles de calcul ont été créées pour identifier des variables, leurs noms dans des cycles précédents, leurs structures de catégories et leurs noms de variables finales. Ces feuilles de calcul ont ensuite été utilisées pour recoder les variables dans chaque cycle de l’ESCC pour générer les ensembles de données harmonisés qui peuvent être combiner dans un ensemble de données constamment étiqueté pour l’analyse. Le paquet a ensuite été ajouté comme un entrepôt de GitHub pour encourager la collaboration avec les autres chercheurs.
ImplicationLe paquetcchsflowa été ajouté au Comprehensive R Archive Network (CRAN) et contient un appui pour plus de 160 variables de l’ESCC, générant un ensemble de données de plus d’un million de sondés. En exécutant les pratiques de sciences ouvertes,cchsflowvise à minimiser le temps requis pour nettoyer et préparer les données pour les plusieurs utilisateurs du CCHS à travers le Canada.