(no subject)
Лассо-регрессия. Критерий качества плюс сумма модулей коэффициентов модели, умноженная на лямбда.
Гребневая регрессия (Ридж, Хребтовая). Критерий качества плюс сумма квадратов коэффициентов модели, умноженная на лямбда.
By logging in to LiveJournal using a third-party service you accept LiveJournal's User agreement
Лассо-регрессия. Критерий качества плюс сумма модулей коэффициентов модели, умноженная на лямбда.
Гребневая регрессия (Ридж, Хребтовая). Критерий качества плюс сумма квадратов коэффициентов модели, умноженная на лямбда.
Закон повторного логарифма —
K-mean — кластеризация
Knn — распознавание
и то и то — виды классификации
Yi — иногда в английской литературе называют «labels»
Условие регуляризации нужно для контроля сложности модели, чтобы избежать переобучения.
Выбор между сложностью и предсказательной силой модели: bias-variance tradeoff (tradeoff — сделка, компромисс)
В XGBoost чаще всего используют ансамбли деревьев. Ансамбль состоит из набора CART-деревьев.
CART отличается от решающего дерева. В решающих деревьях лист содержит только решающее значение (decision value). В CART с каждым листом ассоциируется реальная оценка (score, prediction score).
Это дает нам большие возможности по интерпретации. Также, благодаря этому, появляются возможности для строгого, унифицированного подхода к оптимизации.
random forest и boosted trees — это одна и та же модель, по большому счету. Разница состоит в том, как мы их тренируем.
Функция потерь Хубера, Huber Loss, см Википедию.
GBM. Могут быть GLMBoost и GAMBoost как усиление GAM-моделей.
Также есть CoxBoost для кривых дожития.
Rankboost и LambdaMart для ранжирования