Описание результатов

Alexey Klimov 30 мая, 2017

Графики
Линейное моделирование
- Сравнимаем полученные модели
Регрессия с регуляризацией
График
Коэффициенты модели (только те, которые не равны нулю)

Посмотреть собранный html файл можно здесь: https://rhangelxs.github.io/r_socio_hse/README.html

Исходный код доступен в формате Rmd в моем репозитории на гитхабе, скачать исходный файл можно по ссылке: README.Rmd.

Графики

Линейное моделирование

Сначала построим две модели:

Модель для двух предикторов (lm0)
Модель для двух предикторов с интеракцией между ними (lm1)

Показатели последней модели (lm1) с интеракцией:

Call:
lm(formula = roc ~ Oidep * Oiorg, data = data)

Residuals:
   Min     1Q Median     3Q    Max 
-51.73 -15.57   1.28  15.31  41.26 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) 121.4591    47.6636    2.55    0.012 *
Oidep        -1.9775     2.8275   -0.70    0.485  
Oiorg         1.7235     2.5140    0.69    0.494  
Oidep:Oiorg   0.0248     0.1428    0.17    0.863  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 20 on 161 degrees of freedom
Multiple R-squared:  0.122, Adjusted R-squared:  0.106 
F-statistic: 7.45 on 3 and 161 DF,  p-value: 0.000106

Из вывода линейной модели нужно привести: R², N, p − *valu*e*, F-статистику*

Для каждого регрессора (предиктора): Как минимум β − коэффициент**а и значимость + крайне желательно t-значние, либо S**E

Сравнимаем полученные модели

Сравним наши модели с помощью метода (stepwise regression[1]) модель с интеракцией и модель без интеракции.

Для этого нам поможет пакет lmSupport, но в целом можно ориентироваться на AIC и BIC. Но в нашем случае достаточно воспользоваться ANOVA (или diff-test).

SSE (Compact) =  62585 
SSE (Augmented) =  62573 
Delta R-Squared =  0.00016 
Partial Eta-Squared (PRE) =  0.00019 
F(1,161) = 0.03, p = 0.86

В результате добавление инетеракции (аддитивный эффект) улучшает предсказательные способности модели (Δ**R²) на 0.016%. Добавление интеракции значимо не улучшает показатели соответсвия модели данным (p = 0.86)

Нагляднее всего график:

Регрессия с регуляризацией

В некоторых случаях в ручную отбирать регрессоры неудобно. Для этого можно использовать PLS (аля SEM), Ridge или Lasso.

Полезным будет техника разбиения выборки на обучающую и тестовую (80/20) из Machine Learning.

Для простоты предположим, что у нас нет никаких априорных представлений о модели. Попробуем найти самую удачную модель из всего датасета (включая исключительно числовые или факторные переменные).

В качестве интересующей нас (выходной) перменной мы зададим:

[1] "roc"

Основаня проблема пакета glmnet в том, что ему на вход нужно подавать разреженные матрицы. Напишим для этого небольшую вспомогательную функцию (может даже не одну).

Warning: attributes are not identical across measure variables; they will
be dropped

В качестве предикторов числовых и категориальных предикторов у нас было 19 предиктор(а/ов): comp, sex, age, tenure, promo, satis, position, norms1, norms2, Oidep, Oiorg, StK, StI, StRA, StRE, Pemo, Ptime, Femo and Ftime.

Сразу следует удалить предикторы, предсказательная сила которых слишком высокая (например, в этот список могут попасть компоненты выходной переменной). Мы же не хотим проверять очевидные вещи :)
Затем следует вручную удалить предикторы, которые попали по ошибке (например, в этот список могут попасть компоненты выходной переменной). Внимательно посмотрим на вывод этой команды:

variable.y	cor
Femo	0.42
StRE	0.33
Ftime	0.32
norms1	0.31
norms2	0.30

Чтобы не столкнуться с проблемами мулитиколлинеарности или некорректного кодирования переменных, посмотрим на все предикторы, коэффциент корреляций которых между собой больше 0.9:

variable.x:

.

В итоговый список предикторов для LASSO регрессии у нас попали 19 переменных: comp, sex, age, tenure, promo, satis, position, norms1, norms2, Oidep, Oiorg, StK, StI, StRA, StRE, Pemo, Ptime, Femo and Ftime

По умолчанию glmnet строит LASSO модель (alpha = 1), если нужна Ridged регрессию, то нужно указать параметр alpha = 0.

Выбираем лучшую лямбду

lambda.min	lambda.1se
1.292	3.276

[1] 3.3

График

Коэффициенты модели (только те, которые не равны нулю)

term	step	estimate	lambda	dev.ratio
(Intercept)	1	115.5	3.276	0.2342
satis	1	0.3289	3.276	0.2342
norms2	1	2.449	3.276	0.2342
Oiorg	1	0.1468	3.276	0.2342
StRA	1	-0.1222	3.276	0.2342
StRE	1	0.06668	3.276	0.2342
Femo	1	1.753	3.276	0.2342

[1] почему этот старый и добрый метод не современный написано тут: https://stats.stackexchange.com/questions/13686/what-are-modern-easily-used-alternatives-to-stepwise-regression

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
README_files		README_files
.gitignore		.gitignore
README.Rmd		README.Rmd
README.html		README.html
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Описание результатов

Графики

Линейное моделирование

Сравнимаем полученные модели

Регрессия с регуляризацией

График

Коэффициенты модели (только те, которые не равны нулю)

About

Releases

Packages

Languages

rhangelxs/r_socio_hse

Folders and files

Latest commit

History

Repository files navigation

Описание результатов

Графики

Линейное моделирование

Сравнимаем полученные модели

Регрессия с регуляризацией

График

Коэффициенты модели (только те, которые не равны нулю)

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages