?

Log in

No account? Create an account
(no subject)
oftoper

В box-plot длина уса равна полутора длинам тела ящика или max/min значению, смотря, что больше/меньше. Больше полутора тел ящика и до трех — кружками обозначаются выбросы, а далее уже крестиками обозначаются экстремальные значения.


(no subject)
oftoper

Если столбцы матрицы [Х] — это степени Х, то матрица будет плохо обусловлена, зависимость столбцов близка к линейной. Лучше использовать многочлен Лежандра. 


(no subject)
oftoper

Лог-нормальное распределение это такое распределение, которое становится нормальным после логарифмирования.


(no subject)
oftoper

Медиана устойчива к выбросам, а среднее арифметическое — нет. Как типичное наблюдение медиана гораздо лучше, также для оценки типичного значения подходит усеченное среднее, для подсчета которого надо отбросить по 2.5% самых больших и самых маленьких значений ряда, сверху и снизу.


Generalized linear models (GLM)
oftoper

У линейных моделей есть ряд ограничений. Прежде всего, возникают сложности с интерпретацией результата, если модель накладывает жесткие требования по неотрицательности ответа или приходится извлекать кубические корни и т.п. Используемые натуральные логарифмы не работают с нулевыми или отрицательными значениями.

GLM включают в себя линейные модели, но имеют некоторые преимущества и не так сложны в вычислениях. Такие модели включают в себя три компонента: экспоненциальную прогнозную часть (отклик); линейную часть — предиктор; функцию, связывающую мат ожидание отклика и предиктор.

Наиболее частые случаи использования GLM моделей: линейные модели; биномиальная и бинарная регрессии; пуассоновские регресии (число событий в единицу времени).

Логистическая регрессия

Часто интересуют исходы, которые имеют только два состояния. Например, выиграл/проиграл. Такие исходы называются биномиальными, частный случай распределения Бернулли.

Пуассона регрессия (Poisson GLM)

Многие данные счетные, без определенных границ. Например, число звонков в колл-центр или количество машин, проезжающих по мосту. Для анализа подобных данных используют распределение Пуассона. Данные также могут быть в относительной форме, например, число людей, сдавших тест (в более широком смысле доля — число событий за промежуток времени).

Read more...Collapse )

Множественная регрессия
oftoper

fit<-lm(Volume~Girth+Height+Constant-1, trees)   зачем-то надо вычитать единицу.

Заменяем поочередно предикторы их residual-ми и сводим к одномерной регресии.

all<-lm(Fertility~., swiss)  регрессия для переменной Fertility по всем другим переменным в наборе данных swiss. Используется точка, чтобы не перечислять все переменные.

При построении множественной регресии полученные коэффициенты (регрессоры) получены при условии, что действует один фактор из набора, а все остальные постоянные. Так, последовательно исключая факторы, получаем коэффициенты для каждого.

Другими словами, коэффициент при предикторе показывает, насколько изменится отклик при изменении данного предиктора при условии, что все остальные предикторы останутся неизменными.


Остаточная вариация (residual variation, ОВ)
oftoper

ОВ показывает, насколько хорошо данные объясняются статистической моделью, например, линейной регрессией.

Линейная зависимость от предикторов должна быть минимальной у ОВ, иначе можно было бы подобрать более оптимальную статистическую модель.

Надо отличать ОВ и систематическую вариацию, объясняемую регрессивной моделью.

Используя ОВ из функции lm, можно определить стандартное отклонение ошибки построенной регресии. 

Ее можно вычислить так: sqrt(sum(fit$residuals^2)/(n-2)). Квадратный корень из суммы квадратов ОВ, деленной на число степеней свободы. Число степеней свободы меньше на 2 числа наблюдений, т.к. в уравнении линейной регресии 2 зависимы коэффициента бета: наклон линии регресии и ее пересечение с осью У.  

Тот же результат можно получить сразу из функции построения регрессии: summary(fit)$sigma. fit получена через функцию lm. 

Или еще вот так: sqrt(deviance(fit)/(n-2))

Есть понятие Общая вариация (total variation). Она равна сумме ОВ и вариации регресии (regression variation).

Total Variation = Residual Variation + Regression Variation

Общая вариация равна сумме квадратов разностей между наблюдаемыми данными и их средней.

ОВ равна сумме квадратов разностей наблюдаемых данных и данных, предсказанных с помощью построенной регресии.

Термин «R квадрат» характеризуют долю вариации регресии в общей вариации.

deviance(fit) подсчитает сумму квадратов разностей наблюдаемых данных и данных, предсказанных построенной регрессией (fit) — это будет ОВ.

Read more...Collapse )

Множественное тестирование гипотез
oftoper

При проведении множества тестов есть проблема, что при заданном уровне альфа некоторые гипотезы окажутся ложными просто в силу статистики. Например, при альфа в 5% и проведении 20 экспериментов, в среднем один должен давать ложные результаты. То же и с p-уровнем.

Чтобы избежать этого, используют специальные методы измерения ошибок и статистические способы их минимизации.

Нулевая гипотеза отражает статус-кво и предполагается верной.

р-уровень — это вероятность в рамках нулевой гипотезы получить наблюдение более экстремальное, чем статистика теста в направлении альтернативной гипотезы.

Низкий р-уровень (например, меньше заданной альфа) говорит, что данные, полученные в ходе эксперимента редки и необычны и ближе к альтернативной гипотезе, нежели к нулевой. Поэтому нулевую гипотезу надо отклонить.

Один из методов коррекции результатов множественного тестирования — коррекция Бонферрони. Альфа делится на количество тестов и отклоняются только те нулевые гипотезы, для которых р-уровень меньше полученного частного от деления.

Другой, более популярный метод — метод Бенджамина-Хогберга. Р-уровни выстраиваются по величине и над ними делаются еще некоторые преобразования.

Еще можно корректировать не уровень прохода р-увровней, а сами р-уровни.



Мощность статистического критерия
oftoper

Мощность — это вероятность отклонения нулевой гипотезы, когда она ошибочна. Позволяет определить, верна ли альтернативная гипотеза.

Ошибка первого рода — отклонить верную нулевую гипотезу. Вероятность ошибки первого рода принято обозначать через «альфа».

Ошибка второго рода — принять ошибочную нулевую гипотезу.

Вероятность ошибки второго рода принято обозначать через «бета».

1-бета — вероятность отклонить ошибочную нулевую гипотезу — т.е. мощность.

Чем больше выборка, тем больше мощность.

Чем больше альфа — тем больше мощность.

Чем больше дисперсия, тем меньше мощность.

Эффект масштаба определяется разностью двух предполагаемых средних, относительно стандартного отклонения.


Фраза дня
oftoper

Коекакер — тот, кто все делает кое-как.