(no subject)

В рекомендательных системах сейчас в основном используют SVD разложение. Из разреженной матрицы получаем неразреженную, меньшей размерности. И уже на новую матрицу применять другие методы. При этом, новую матрицу можно получить как для фильмов, так и для пользователей.

(no subject)

В отличие от обычной (линейной) регрессии, в логистической регрессии не предсказываются значения числовой переменной. Вместо этого — вероятность принадлежать к определенному классу.

(no subject)

CART для регрессии фактически равен приближению некоторой функции с помощью кусочно-постоянной функции. Хорошо работает с явно нелинейными зависимостями.

Еще один класс задач для CART — время ожидания, например до поломки автомобиля.

(no subject)

Стэкинг. Берем классификатор, с его помощью предсказываем значения и добавляем их к исходным данным. 

Если прогнозируемая переменная У — это фактор, значит имеем задачу распознавания. Фактор можно объявлять.

Бутстрэп — генерация повторных выборок из исходного набора (2/3), число выбираемых предикторов также можно брать не полным.

Бэггинг — bootstrap aggregating коллективный прогноз моделей, которые построена на основе бутстрэп выборок.

Бустинг — ансамбль моделей, где следующая модель строится на остатках предыдущих.

Состоятельный метод: при росте n результаты предсказаний сходятся с априори лучшим байесовским классификатором, который есть, если мы все знаем о совместном распределении Х и У.

Подобная сходимость доказана для методов К-го ближайшего соседа и нейронных сетей. К растет с ростом n, как ln n.


(no subject)

Теорема Гаусса-Маркова

Обусловленность матрицы

Рекомендательных системы — разреженные данные, сейчас использую SVD разложение или ему подобные.

(no subject)

Кластерный анализ равен распознаванию образов без учителя.

Теория особенностей дифференцируемых отображений равна теории катастроф.