Скрипт эмпирической части выпускной квалификационной работы
Парламентские выборы Великобритании в 2015 и 2017 годах:
чем объясняется голосование вопреки предпочтениям избирателей
Студента "Высшей Школы Экономики" ОП "Политология"
Барсукова Никиты Сергеевича

Загрузка данных и пакетов

Здесь можно загрузить любую из 14 волн
Получить их все можно на сайте British Election Studies

Чтобы проще понять, какая нужна, то здесь можно найти даты их проведения
Для напоминания:

Загрузка путём чтения файла с компьютера

Это можно сделать "ручками", сложив файлы в папку data, рядом с этим скриптом, и исполнив следующий чанк.

Либо ...

Загрузка напрямую с интернета (используем только ссылку)

...либо есть вот эта замечательная функция, которая автоматически загрузит с интернета датасет в рабочую среду
НО: нужно учесть, что особенно последние волны часто обновляются (а следовательно и меняются ссылки => чтобы работала функция нужно обновить ссылки внутри функции)
Файл не сохраняется нигде на компьютере

Примечание: взята была 4 волна, а не 5 (которая казалось бы ближе к выборам), потому что в 5 отсутствует интересуемая нас зависимая переменная. Разница в пару месяцев в данном случае не критична.

Отсечение нужных переменных

Для зависимой

Гипотеза 1: малая вера в успех партии


Гипотеза 3: экономическое голосование


Гипотеза 4: нарушение иерархии ценностей

Контрольные



Перекодировка переменных

Сокращение имён переменных (чтобы они умещались в регрессионной выдаче)

convert some var types

Зависимая переменная DV

Уберём No - none, Don't know, I would not vote

Повторим всё с 12 волной

Глянем на 12 волну

DV = (partyId != generalElectionVote)

Преобразуем True и False у DV в 1 и 0 (так нужно для построения модели)

Гипотеза 1: малая вера в успех партии

Здесь будет проверяться гипотеза о том, что респонденты голосуют вопреки своим предпчотениям, потому что их истинные предпочтения - партии, которые имеют малый шанс на успех

Голос отдан за более крупную партию?

Для начала стоит обозначить, какие партии мы будем считать мелкими, а какие крупными

Интересно было бы создать переменную sizeComparison c тремя уровнями:

Оценка респондента шансов на успех у партии

Работаем с данными переменными:

Создаются переменные partyIdSuccess, generalElectionVoteSuccess.
В них респондент говорит о том, верит ли он в то, что его партия (к которой себя относит и за которую голосуют) сможет выиграть или нет


Также создаё аналогичные переменные partyIdFailure и generalElectionVoteFailure.
Говорит о том, думает ли респондент о провале данных партий


Переменные, говорящие об успехи партии, измеряется по шкале от 0 до 100.

Перемеменные, говорящие о провале, являются бинарными.

Logit. Проверка $H_1$

2017

Без интеракции

Теперь всё те же переменные, но добавляется интеракция между переменными partyIdSuccess и generalElectionVoteSuccess

Дальше эта картинка вместо 1000 слов

Для интрепретации посчитаем предельные эффекты

Теперь коэффициенты говорят о том, на сколько (в среднем) увеличивается вероятность успеха при увеличении на единицу независимой переменной

Подсчитаем пороговое значение, при котором увеличение partyIdSuccess не увеличивает вероятность
partyIdSuccess = $\beta_1$ + $\beta_3$ * generalElectionVoteSuccess
partyIdSuccess = 0.0056 + (-0.0002) * generalElectionVoteSuccess
0 = 0.0056 + (-0.0002) * generalElectionVoteSuccess
generalElectionVoteSuccess = $\frac{0.005550522018638351}{0.00017029773201904033}$
generalElectionVoteSuccess $\approx$ 33

При generalElectionVoteSuccess = 32.6 => увеличение partyIdSuccess не изменяет вероятность.

При generalElectionVoteSuccess < 32.6 => увеличение partyIdSuccess увеличивает вероятность.

При generalElectionVoteSuccess > 32.6 => увеличение partyIdSuccess уменьшает вероятность.

2015

Без интеракции

with interaction

Предельные эффекты

По 15 году объяснительная сила моделей слабее почти в 2 раза

Результаты

$H_1$ подтвердилась. Это было показано при помощи логистической регрессии.

Появились намёки на вторую гипотезу.

Гипотеза 2: signal voting

Во время подтверждения гипотезы №1, было выявленно, что существует группа людей, которые имеют партийную принадлежность, голосуют за другую партию, хотя даже мало верят в её успех (думают, что её шансы меньше $\frac{1}{3}$).

Это может выглядеть странным на первый взгляд, но вовзращаюясь к теоретической рамке исследования и гипотезам - это подозрение на $H_2$

Отсечём эту категорию населения и изучим поподробнее

2017

Отсекаем ситуацию, когда в победу своей партии избиратель верит больше, чем за которую голосует

Считаем самые крупные вариации комбинаций partyId и generalElectionVote в полученной subsample

Оставляем самые крупные кейсы и самые крупные категории (выводить на график категории со значениями близкими к нулю нет смысла

Считаем процент каждой категории MMI в каждой паре партий (Идеологически близка vs голосую)

Сокращаем длинные названия партия до аббревиатур для графика

bar


2015

bar

Гипотеза 3: экономическое голосование

2017

Посмотрим на людей, которые удовлетворены текущим состоянием экономики (но ассоциируют себя не с Консерваторами). А точнее только тех, кто головал вопреки предпочтения.

2015

Посмотрим на людей, которые удовлетворены текущим состоянием экономики (но ассоциируют себя не с Консерваторами). А точнее только тех, кто головал вопреки предпочтения.

Модель, включающая гипотезу 1 и 3

Accuracy metrics. Predictions. 2017

Оптимальный threshold может находится по-разному: roc-curve, f1-score или же пересечение precision-recall curve.

Выбран последний вариант (btw: f1-score в данной точке равно 69, когда максильное значение всего лишь чуть больше полпроцентного пункта)

Accuracy metrics. Predictions. 2015

Гипотеза № 4