August 15th, 2018

Остаточная вариация (residual variation, ОВ)

ОВ показывает, насколько хорошо данные объясняются статистической моделью, например, линейной регрессией.

Линейная зависимость от предикторов должна быть минимальной у ОВ, иначе можно было бы подобрать более оптимальную статистическую модель.

Надо отличать ОВ и систематическую вариацию, объясняемую регрессивной моделью.

Используя ОВ из функции lm, можно определить стандартное отклонение ошибки построенной регресии. 

Ее можно вычислить так: sqrt(sum(fit$residuals^2)/(n-2)). Квадратный корень из суммы квадратов ОВ, деленной на число степеней свободы. Число степеней свободы меньше на 2 числа наблюдений, т.к. в уравнении линейной регресии 2 зависимы коэффициента бета: наклон линии регресии и ее пересечение с осью У.  

Тот же результат можно получить сразу из функции построения регрессии: summary(fit)$sigma. fit получена через функцию lm. 

Или еще вот так: sqrt(deviance(fit)/(n-2))

Есть понятие Общая вариация (total variation). Она равна сумме ОВ и вариации регресии (regression variation).

Total Variation = Residual Variation + Regression Variation

Общая вариация равна сумме квадратов разностей между наблюдаемыми данными и их средней.

ОВ равна сумме квадратов разностей наблюдаемых данных и данных, предсказанных с помощью построенной регресии.

Термин «R квадрат» характеризуют долю вариации регресии в общей вариации.

deviance(fit) подсчитает сумму квадратов разностей наблюдаемых данных и данных, предсказанных построенной регрессией (fit) — это будет ОВ.

Collapse )

Множественная регрессия

fit<-lm(Volume~Girth+Height+Constant-1, trees)   зачем-то надо вычитать единицу.

Заменяем поочередно предикторы их residual-ми и сводим к одномерной регресии.

all<-lm(Fertility~., swiss)  регрессия для переменной Fertility по всем другим переменным в наборе данных swiss. Используется точка, чтобы не перечислять все переменные.

При построении множественной регресии полученные коэффициенты (регрессоры) получены при условии, что действует один фактор из набора, а все остальные постоянные. Так, последовательно исключая факторы, получаем коэффициенты для каждого.

Другими словами, коэффициент при предикторе показывает, насколько изменится отклик при изменении данного предиктора при условии, что все остальные предикторы останутся неизменными.