Смещение оценки из-за продублированных анкет
Сотрудники ЛССИ подготовили материал о лекции Саррацино Франческо "Смещение оценки из-за продублированных анкет: метод Монте-Карло симуляции", представленной на Шестом международном семинаре ЛССИ.
Сотрудники ЛССИ подготовили материал о лекции Саррацино Франческо под названием "Смещение оценки из-за продублированных анкет: метод Монте-Карло симуляции", представленной на Шестом международном семинаре ЛССИ. Франческо является одним из ведущих ассоциированных сотрудников ЛССИ.
Обзор лекции:
Достоверные данные – необходимое условие, обеспечивающее качество научных выводов. Работа исследователей-эмпириков в социальных науках часто основывается на результатах опросов, качество которых зависит от добросовестной работы интервьюеров. Однако это условие далеко не всегда выполняется. Многие из широко используемых массивов кросс-культурных данных могут содержать довольно большое число дублированных (duplicate records) наблюдений, то есть анкет, в которых все ответы одного респондента идентичны ответам другого респондента.
Как правило, бланк анкеты содержит довольно много вопросов. Следовательно, вероятность того, что два респондента дадут идентичные ответы на все или почти все вопросы, крайне низка. Другими словами, нереалистично, чтобы две одинаковые анкеты соответствовали двум реальным респондентам. Очевидно, что либо одна анкета настоящая, а вторая продублирована с нее, либо же они обе сфальсифицированы. Кроме того, одинаковые анкеты могут появиться в результате ошибок, совершенных интервьюерами или кодировщиками, а также в ходе работы с массивом. В любом случае, все они должны расцениваться как подозрительные. К сожалению, на данный момент очень мало известно о том, какие смещения порождает дублирование данных, и как это сказывается на результатах анализа.
Доклад Франческо Саррацино и Малгоржаты Микуцки представляет собой одно из первых исследований, посвященных тому, как влияют дублированные анкеты на результаты линейных регрессий. Они используют два сценария. Первый фокусируется на искажениях, связанных с числом дублированных анкет (2 одинаковые анкеты, 3 одинаковые анкеты и т.д.), второй – на количестве дубликатов. Более того, они рассматривают, как меняются результаты в зависимости от того, к какой части распределения принадлежат дубликаты – к середине, верхнему или нижнему хвосту или, наоборот, расположены равномерно по всему диапазону. Наконец, они сравнивают так называемые «наивные» оценки, игнорирующие присутствие дубликатов, с четырьмя альтернативными решениями: 1) исключение дубликатов; 2) маркирование дубликатов и включение их в контрольные переменные; 3) использование робастной регрессии, позволяющей снизить влияние различных отклонений; 4) взвешивание наблюдений.
Для достижения цели исследования авторы сгенерировали базу данных (N = 1500) с четырьмя переменными с известной матрицей ковариаций. Они использовали Монте-Карло симуляции с 1000 повторами для изучения эффекта 40 паттернов дубликатов на смещение регрессионных оценок. Также, они использовали критерий Dfbetas для оценки серьезности смещения в зависимости от различных паттернов и вариантов решения этой проблемы.
Авторы показывают, что риск получения смещенных регрессионных коэффициентов повышается с числом продублированных записей. Если база данных содержит один шестикратный повтор (менее 1% выборки), вероятность получения несмещенной оценки составляет 41.6%. Если данные содержат 79 пар дубликатов (около 10% выборки), вероятность получения несмещенных оценок – 11,4 %. Таким образом, даже небольшое число одинаковых анкет приводит к повышению риска получения смещенных регрессионных коэффициентов. Следовательно, исследователи, не учитывающие присутствие дублированных анкет, могут прийти к неверным выводам.
Дополнительно авторы продемонстрировали, что вероятность получения недостоверных результатов не зависит от того, в какой части распределения зависимой переменной располагаются одинаковые анкеты. Разница между «типичными», «девиантными» и другими вариантами довольно мала. Даже если дублированные анкеты находятся в центре распределения, риск получения смещенных оценок остается высоким: 60.4% в случае «наивного» метода, где регрессия проводится на данных с одним шестикратным повтором, и 87.9%, если данные содержат 79 дублетов, то есть 79 пар одинаковых анкет.
Франческо Саррацино и Малгоржата Микуцка также проанализировали эффективность возможных вариантов минимизации смещений, вызванных дублированными анкетами. Они продемонстрировали, что самое лучше решение – это взвешивание дубликатов. Оно превосходит «наивные оценки» в случае присутствия одной пары дублетов и дает примерно такие же результаты в случае присутствия в массиве одного триплета (трех одинаковых анкет), квадруплета (четырех одинаковых анкет), квинтиплета (пяти одинаковых анкет) или сикстиплета (шести одинаковых анкет). Взвешивание – это лучшее решение для минимизации 13 видов смещения и в том случае, когда число дубликатов увеличивается. Эффективность этого решения снижается, если число дубликатов возрастает, но шансы получения несмещенных оценок все равно выше, чем в альтернативных вариантах. Наконец, по сравнению с «наивными» моделями, игнорирующими число одинаковых анкет, робастная регрессия работает хуже во всех случаях, повышая вероятность получения смещенных регрессионных коэффициентов.
Эти результаты разочаровывают, но они не пессимистичны. Хотя дублированные данные являются проблемой многих исследований, существуют способы, позволяющие минимизировать эту проблему. Авторы предложили три возможных решения: 1) исключение дубликатов из анализа; 2) маркирование дубликатов и включение их в число контрольных переменных; 3) взвешивание. Анализ, проведенный Франческо Саррацино и Малгоржатой Микуцкой, подчеркивает важность сбора данных высокого качества, поскольку их коррекция с помощью статистических методов остается серьезным вызовом. Авторы призывают к дальнейшему исследованию и поиску методов коррекции одинаковых ответов.