?

Log in

No account? Create an account
(no subject)
oftoper

Медиана устойчива к выбросам, а среднее арифметическое — нет. Как типичное наблюдение медиана гораздо лучше, также для оценки типичного значения подходит усеченное среднее, для подсчета которого надо отбросить по 2.5% самых больших и самых маленьких значений ряда, сверху и снизу.


(no subject)
oftoper

Лог-нормальное распределение это такое распределение, которое становится нормальным после логарифмирования.


(no subject)
oftoper

Если столбцы матрицы [Х] — это степени Х, то матрица будет плохо обусловлена, зависимость столбцов близка к линейной. Лучше использовать многочлен Лежандра. 


(no subject)
oftoper

В box-plot длина уса равна полутора длинам тела ящика или max/min значению, смотря, что больше/меньше. Больше полутора тел ящика и до трех — кружками обозначаются выбросы, а далее уже крестиками обозначаются экстремальные значения.


(no subject)
oftoper

Феймановские лекции по математике. Что в математике хорошо, то и на практике хорошо.


(no subject)
oftoper

Кластерный анализ равен распознаванию образов без учителя.

Теория особенностей дифференцируемых отображений равна теории катастроф.


(no subject)
oftoper

Теорема Гаусса-Маркова

Обусловленность матрицы

Рекомендательных системы — разреженные данные, сейчас использую SVD разложение или ему подобные.


(no subject)
oftoper

Стэкинг. Берем классификатор, с его помощью предсказываем значения и добавляем их к исходным данным. 

Если прогнозируемая переменная У — это фактор, значит имеем задачу распознавания. Фактор можно объявлять.

Бутстрэп — генерация повторных выборок из исходного набора (2/3), число выбираемых предикторов также можно брать не полным.

Бэггинг — bootstrap aggregating коллективный прогноз моделей, которые построена на основе бутстрэп выборок.

Бустинг — ансамбль моделей, где следующая модель строится на остатках предыдущих.

Состоятельный метод: при росте n результаты предсказаний сходятся с априори лучшим байесовским классификатором, который есть, если мы все знаем о совместном распределении Х и У.

Подобная сходимость доказана для методов К-го ближайшего соседа и нейронных сетей. К растет с ростом n, как ln n.



(no subject)
oftoper

В CART: если условия выполнено, то налево, с какой стороны написано условие — неважно.

Основные алгоритмы деревьев: ID3, C4.5, CART(IndCART, DB-CART), CHAID, MARS.


(no subject)
oftoper

CART для регрессии фактически равен приближению некоторой функции с помощью кусочно-постоянной функции. Хорошо работает с явно нелинейными зависимостями.

Еще один класс задач для CART — время ожидания, например до поломки автомобиля.


(no subject)
oftoper

В отличие от обычной (линейной) регрессии, в логистической регрессии не предсказываются значения числовой переменной. Вместо этого — вероятность принадлежать к определенному классу.


(no subject)
oftoper

В рекомендательных системах сейчас в основном используют SVD разложение. Из разреженной матрицы получаем неразреженную, меньшей размерности. И уже на новую матрицу применять другие методы. При этом, новую матрицу можно получить как для фильмов, так и для пользователей.


(no subject)
oftoper

Основные задачи ML — регрессия, классификация, ранжирование.


(no subject)
oftoper

Чарльз Фергюсон «Нация-хищник»

Дуглас «Зачем убили Джона Кеннеди»


(no subject)
oftoper

Виллербухи.

«Летняя книга» серия «Городок»

«На реке. История в картинках»

«Год в лесу»

«Породи и Павлуша. Ненароком вокруг света»

«Детектив Пьер. Погоня в башне лабиринтов»