February 17th, 2019

(no subject)

Медиана устойчива к выбросам, а среднее арифметическое — нет. Как типичное наблюдение медиана гораздо лучше, также для оценки типичного значения подходит усеченное среднее, для подсчета которого надо отбросить по 2.5% самых больших и самых маленьких значений ряда, сверху и снизу.

(no subject)

Лог-нормальное распределение это такое распределение, которое становится нормальным после логарифмирования.

(no subject)

Если столбцы матрицы [Х] — это степени Х, то матрица будет плохо обусловлена, зависимость столбцов близка к линейной. Лучше использовать многочлен Лежандра. 

(no subject)

В box-plot длина уса равна полутора длинам тела ящика или max/min значению, смотря, что больше/меньше. Больше полутора тел ящика и до трех — кружками обозначаются выбросы, а далее уже крестиками обозначаются экстремальные значения.

(no subject)

Кластерный анализ равен распознаванию образов без учителя.

Теория особенностей дифференцируемых отображений равна теории катастроф.

(no subject)

Теорема Гаусса-Маркова

Обусловленность матрицы

Рекомендательных системы — разреженные данные, сейчас использую SVD разложение или ему подобные.

(no subject)

Стэкинг. Берем классификатор, с его помощью предсказываем значения и добавляем их к исходным данным. 

Если прогнозируемая переменная У — это фактор, значит имеем задачу распознавания. Фактор можно объявлять.

Бутстрэп — генерация повторных выборок из исходного набора (2/3), число выбираемых предикторов также можно брать не полным.

Бэггинг — bootstrap aggregating коллективный прогноз моделей, которые построена на основе бутстрэп выборок.

Бустинг — ансамбль моделей, где следующая модель строится на остатках предыдущих.

Состоятельный метод: при росте n результаты предсказаний сходятся с априори лучшим байесовским классификатором, который есть, если мы все знаем о совместном распределении Х и У.

Подобная сходимость доказана для методов К-го ближайшего соседа и нейронных сетей. К растет с ростом n, как ln n.


(no subject)

CART для регрессии фактически равен приближению некоторой функции с помощью кусочно-постоянной функции. Хорошо работает с явно нелинейными зависимостями.

Еще один класс задач для CART — время ожидания, например до поломки автомобиля.

(no subject)

В отличие от обычной (линейной) регрессии, в логистической регрессии не предсказываются значения числовой переменной. Вместо этого — вероятность принадлежать к определенному классу.

(no subject)

В рекомендательных системах сейчас в основном используют SVD разложение. Из разреженной матрицы получаем неразреженную, меньшей размерности. И уже на новую матрицу применять другие методы. При этом, новую матрицу можно получить как для фильмов, так и для пользователей.

(no subject)

Виллербухи.

«Летняя книга» серия «Городок»

«На реке. История в картинках»

«Год в лесу»

«Породи и Павлуша. Ненароком вокруг света»

«Детектив Пьер. Погоня в башне лабиринтов»