(no subject)
GBM. Могут быть GLMBoost и GAMBoost как усиление GAM-моделей.
Также есть CoxBoost для кривых дожития.
Rankboost и LambdaMart для ранжирования
By logging in to LiveJournal using a third-party service you accept LiveJournal's User agreement
Category was added automatically. Read all entries about "наука".
GBM. Могут быть GLMBoost и GAMBoost как усиление GAM-моделей.
Также есть CoxBoost для кривых дожития.
Rankboost и LambdaMart для ранжирования
Закон повторного логарифма —
Лассо-регрессия. Критерий качества плюс сумма модулей коэффициентов модели, умноженная на лямбда.
Гребневая регрессия (Ридж, Хребтовая). Критерий качества плюс сумма квадратов коэффициентов модели, умноженная на лямбда.
Основные задачи ML — регрессия, классификация, ранжирование.
CART для регрессии фактически равен приближению некоторой функции с помощью кусочно-постоянной функции. Хорошо работает с явно нелинейными зависимостями.
Еще один класс задач для CART — время ожидания, например до поломки автомобиля.
В CART: если условия выполнено, то налево, с какой стороны написано условие — неважно.
Основные алгоритмы деревьев: ID3, C4.5, CART(IndCART, DB-CART), CHAID, MARS.
При проведении множества тестов есть проблема, что при заданном уровне альфа некоторые гипотезы окажутся ложными просто в силу статистики. Например, при альфа в 5% и проведении 20 экспериментов, в среднем один должен давать ложные результаты. То же и с p-уровнем.
Чтобы избежать этого, используют специальные методы измерения ошибок и статистические способы их минимизации.
Нулевая гипотеза отражает статус-кво и предполагается верной.
р-уровень — это вероятность в рамках нулевой гипотезы получить наблюдение более экстремальное, чем статистика теста в направлении альтернативной гипотезы.
Низкий р-уровень (например, меньше заданной альфа) говорит, что данные, полученные в ходе эксперимента редки и необычны и ближе к альтернативной гипотезе, нежели к нулевой. Поэтому нулевую гипотезу надо отклонить.
Один из методов коррекции результатов множественного тестирования — коррекция Бонферрони. Альфа делится на количество тестов и отклоняются только те нулевые гипотезы, для которых р-уровень меньше полученного частного от деления.
Другой, более популярный метод — метод Бенджамина-Хогберга. Р-уровни выстраиваются по величине и над ними делаются еще некоторые преобразования.
Еще можно корректировать не уровень прохода р-увровней, а сами р-уровни.