• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Летняя школа университета Утрехта

Вероника Костенко рассказывает о своей поездке на летнюю школу университета Утрехта.

Вероника Костенко в конце августа  приняла участие в летней школе Утрехтского университета (Utrecht Summer School). Эта школа длится почти все лето, и является важным событием для этого маленького города. На главных улицах развешаны плакаты с приветствиями участникам, офис школы располагается в самом центре города, и приезжает очень много студентов со всего мира. Школа предлагает множество курсов одновременно для разных уровней подготовки и направлений исследований.

Я училась на программе “Advanced Methods of Handling the Missing Data. Survey Research, Statistical Analysis and Estimation”. Это курс, которым руководит известный специалист по сложным методам анализа данных, и особенно по работе с отсутствующими значениями Эдит де Лев, а преподают ее соавтор Дж.Хокс и методологи из бюро статистики Нидерландов. Сочетание серьезной теоретической базы и  ежедневных интенсивных практических занятий в среде статистического программирования R дают возможность изучить несколько методов всего за неделю. Мы познакомились с особенностями дизайна исследований для сокращения числа пропущенных значений, с теорией случайности таких случаев (Missing at Random – MAR, Missing Not at Random – NMAR, Missing Completely Not at Random – MCAR). Студенты должны были усвоить, что построчное удаление пропущенных  значений является устаревшим и неэффективным способом работы с пропущенными данными, поскольку пропуски могут быть неслучайны по своей природе, что меняет структуру выборки, а следовательно и результаты. Кроме того, мы научились нескольким простым и быстрым способам проверки случайности пропусков.

Затем студенты изучили и потренировали на практике два основных метода работы с пропущенными значениями. Первый – это метод максимального правдоподобия (Full Information Maximum Likelihood), который использует всю имеющуюся информацию, невзирая на пропущенные значения. Второй – это множественная импутация данных в двух основных пакетах R, применяемых для данной процедуры: “ mice” и “Amelia II”. Дж. Хокс утверждает, что преимущества первого из этих пакетов над вторым заключаются в том, что “Amelia II” предполагает нормальное распределение переменных, в то время как “mice” выдает точные результаты при работе с переменными любого типа, в том числе с дискретными и ненормально распределенными.

Темп занятий был довольно жестким, день начинался в 9 утра с трехчасовой лекции (опаздывать в Голландии очень не принято). После обеденного перерыва слушатели тренировались применять теорию в анализе реальных данных в ходе лабораторных занятий в компьютерных классах. Учебный день формально заканчивался в 5 вечера, но после этого нужно было еще несколько часов посвящать подготовке к следующему занятию.  

В целом, это очень важный и полезный курс, и хотя лекции несколько не упорядочены по темам, знания все равно были усвоены на практических сессиях.