首页    期刊浏览 2025年04月22日 星期二
登录注册

文章基本信息

  • 标题:Software Implementation of Missing Data Recovery: Comparative Analysis
  • 本地全文:下载
  • 作者:N. V. Kovtun ; A.-N. Ya. Fataliieva
  • 期刊名称:Статистика України
  • 印刷版ISSN:2519-1853
  • 电子版ISSN:2519-1861
  • 出版年度:2020
  • 卷号:90
  • 期号:4
  • 页码:12-20
  • DOI:10.31767/su.4(91)2020.04.02
  • 出版社:State Statistics Service of Ukraine, the National Academy of Statistics, Accounting and Audit (NASAA), the National Academy for Public Administration (NAPA) under the President of Ukraine
  • 摘要:Проведено порівняльний аналіз можливостей застосування різних програмних продуктів для вирішення проблеми відновлення даних на прикладі вибірки, для якої симульовані різні варіанти пропусків даних. Дослідження дало змогу виявити слабкі та сильні сторони розглянутих програмних продуктів, а також визначити ефективність застосування того чи іншого методу за різних обсягів пропущеної інформації. Найпростішим інструментом відновлення пропусків визначено пакет прикладних програм Statistica, який пропонує користувачу лише прості методи обробки пропущених даних. Ця програма допоможе впоратися з пропущеними даними при незначному обсязі пропусків (до 10%). SPSS пропонує ширший спектр методів відновлення даних порівняно зі Statistica, водночас має зрозуміліший інтерфейс для користувача проти мов програмування R чи SAS. В останніх зазначених програмних середовищах можна використовувати різні методи відновлення даних від найпростіших до найскладніших, таких як, наприклад, множинна імпутація. Отже, R та SAS є найпотужнішими програмами з відновлення даних, проте і складнішими для користувачів, оскільки потребують знання мови програмування. Встановлено, що жодне з розглянутих програмно-аналітичних середовищ не має вбудованих процедур обробки категоріальних даних. У програмних середовищах R та SAS є певні підходи, які можна реалізувати за аналогією для упорядкованих категорій, проте це не покриває всі потреби аналізу досліджень, реалізованих у вигляді опитувань і результати яких здебільшого представлені як відповіді на запитання. Методи, які застосовуються для відновлення кількісних даних, не можуть бути поширені на категоріальні, навіть якщо для кодування відповідей використані цифри. Дослідження безперечно довело той факт, що до відновлення даних у різних програмних середовищах, так само, як і до вибору можливих способів застосування тих чи інших способів імпутації у різних середовищах, слід підходити дуже обережно. У кожному конкретному випадку проблема імпутації має вирішуватися на основі ретельного аналізу існуючої бази даних з урахуванням не тільки особливостей самих даних і обсягу пропусків, а й специфіки конкретного дослідження. Робота з пропущеними даними охоплює широкий спектр проблем, серед яких вивчення природи пропусків, вибір методології обробки й відновлення даних залежно від їхньої природи та від типу, а також використання різних програмних засобів відновлення даних. У подальшому планується оцінити ефективність відновлювальної здатності методів, реалізованих у різних пакетах прикладних програм, а також розробити методологічні засади відновлення пропусків для категоріальних даних та реалізувати їх на практиці.
  • 其他摘要:The paper contains a comparative analysis of the possibilities of using different software products to solve the problem of missing data on the example of the sample for which different variants of data skips are simulated. The study provided an opportunity to identify the strengths and weaknesses of these software products, as well as to determine the effectiveness of a particular method for different amounts of missed information. Thus, the easiest way to handle the situation with missing data is Statistica, but there are offered only simple methods of processing data with missing values in Statistica. So, this program will help to cope with the missed data when there is a small number of omissions (up to 10%). SPSS offers a wider range of data imputation methods than Statistica, and at the same time it offers a more user-friendly interface compared to the R or SAS programming language. In the R and SAS software environments, you can use different methods of missing data imputation from the simplest to the most complex, such as, for example, multiple imputation. Thus, R and SAS are the most powerful missing data recovery programs, but they are more complex for users because they require knowledge of the programming language. It is found out that none of the mentioned software-analytical environments has built-in procedures for processing categorical data with missing values. There are approaches that can be implemented by analogy for ordered categories in R and SAS software environments, but it does not cover all the needs of the analysis of research, which are implemented in the form of surveys with the results that are mostly presented as answers. The methods used to impute quantitative data cannot be applied to categorical data, even if numbers are used to encode responses. The study undoubtedly proved that handling the missing data, as well as the choosing of possible ways to use certain methods of data imputation in different software environments should be approached very carefully and the problem of imputation should be solved in each case based on careful analysis of the existing database, considering not only the characteristics of the data and the number of gaps, but also the specific of a particular study. Dealing with missing data involves a wide range of the issues, which includes both the exploration of the nature of gaps, the methodology for data processing and imputation, depending not only on their nature but also on the type and the use of various software environments on missing data imputation. It is planned in future research to assess the effectiveness of the recoverability of imputation methods in different software environments, as well as to develop methodological principles for restoring gaps for categorical data and implement them into practice.
  • 关键词:пропущені дані; типи пропусків; засоби імпутації даних; SPSS Statistics; Statistica; програмне середовище R; SAS.
  • 其他关键词:missing data; interval types; data imputation techniques; SPSS Statistics; Statistica; software environment R; SAS.
国家哲学社会科学文献中心版权所有