четверг, 22 августа 2024 г.

Курс матстата

 Основные понятия

  • Случайная величина
  • Плотность распределения и функция распределения
  • Закон распределения
  • Математическое ожидание
  • Дисперсия
  • Какие именно бывают случайные величины
  • Когда используются те или иные распределения случайных величин (их связь с реальностью)
  • Описательные статистики: среднее, дисперсии, медианы и пр.
  • Работа с данными: предобработка, сбор, разведочный анализ, визуализация

 Понятие случайной величины 

  • Распределение дискретной случайной величины
  • Функция распределения дискретной случайной величины
  • Распределение непрерывной случайной величины
  • Функция распределения непрерывной случайной величины
  • Свойства функции распределения случайной величины

Характеристики случайной величины

  • Математическое ожидание
  • Свойства математического ожидания
  • Дисперсия
  • Свойства дисперсии
  • Мода случайной величины
  • Медиана случайной величины
  • Квантиль

Какими бывают случайные величины

  • Распределение Бернулли
  • Биномиальное распределение
  • Геометрическое распределение
  • Распределение Пуассона
  • Експоненциальное распределение
  • Равномерное распределение
  • Нормальное распределение

Описательные статистики и выборки

  • Понятие генеральной совокупности
  • Понятие выборки (случайная выборка, репрезентативная выборка, сратифицированная выборка)
  • independent identically distributed
  • Понятие статистика
  • Выборочное среднее, медиана, дисперсия, перцентиль, квартиль
  • Сравнение теоретических величин и выборочных величин
 

Гистограмма и эмпирическая функция распределения

  • Эмпирическая функция распределения cdf
  • Эмперическая плотность распределения pdf
  • Kernel density estimation на гистограмме
  • Box plot

Зависимые случайные величины

  • определение зависимых и независимых случайных величин
  • Ковариация
  • Свойства ковариации
  • Корреляция Пирсона
  • Корреляция Спирмена (корреляция Пирсона между рангами, определение рангов)
  • Корреляция и причинность

Нормальное распределение и его свойства

  • Математическое ожидание нормального распределения
  • Дисперсия нормального распределения
  • Функция и плотность распределения нормального распределения
  • Стандартное нормальное распределение (центрирование и нормирование)
  • Правила сигм
  • Тяжелые хвосты
  • Эксцесс и Куртосис

Многомерное нормальное распределение

  • Вектор математических ожиданий
  • Ковариационная матрица

Преобразование Бокса-Кокса

  • логарифмирование данных (на примере цен)
  • как избавиться от длинных тяжелых хвостов в данных чтобы применять к данным стандартные методы статистики

Масштабирование и категориальные переменные 

  • Пример рост вес и их размерность
  • Подсчет расстояния между переменными разных размерностей
  • Способы масштабирования
  • Нормализация standard scaler
  • Масштабирование на отрезок [0;1]
  • Устойчивая к выбросам нормализация
  • Категориальные переменные
  • Dummy trap
  • Линейная зависимость и мультиколлинеарность
  • Особенности бинарного кодирования и проклятие размерности

Распределения связанные с нормальным

  • Хи-квадрат распределение
  • Число степеней свободы для Хи-квадрат распределения
  • Распределение Стьюдента
  • Распределение Фишера

Закон Больших Чисел (ЗБЧ)

  • Собственно теорема
  • Сходимость по вероятности
  • Свойства сходимости по вероятности plim

Центральная Предельная Теорема (ЦПТ)

  • Иллюстрация теоремы на игральных костях
  • Сходимость по распределению
  • Средиземье и Крайнеземье в статистике
  • ЗБЧ vs ЦПТ сравнение формулировок
  • Виды сходимостей (почти наверное, по вероятности, по распределению)
  • Генерация распределений и квантильное преобразование

Схема математической статистики

  • Построение большой карты/схемы для математической статистики
  • Как оценить? (метод моментов, метод максимального правдоподобия)
  • Союзники асимптотические при большом n: ЦПТ и дельта метод
  • Союзники точные: Теорема Фишера, Хи-квадрат, t-статистика, F(n,k)
  • Хорошие свойства: Несмещенность, Состоятельность, Эффективность
  • Пример про деревню Гипотезово

Точечные оценки и метод моментов

  • Точечная оценка параметров неизвестного распределения по выборке
  • Момент 1 порядка и более высоких порядков
  • Использование ЗБЧ

Асимптотические доверительные интервалы

  • Асимптотический доверительный интервал для среднего
  • Длина доверительного интервала
  • Асимптотический доверительный интервал для разности средних
  • Асимптотический доверительный интервал для долей
  • Асимптотический доверительный интервал для разности долей
  • Дельта метод

Хорошие свойства оценок

  • Несмещенность
  • Состоятельность
  • Асимптотическая несмещенность
  • Сравнение оценок, MSE (mean squared error)
  • Несмещенная оценка для среднего и дисперсии
  • Состоятельные оценки для среднего и дисперсии
  • Состоятельность и несмещенность на примерах
  • Дилема: Смещение VS Разброс
  • MSE в виде суммы смещения и разброса Bias-variance decomposition (первое замечательное свойство MSE)
  • Регуляризация
  • Эффективность оценок
  • Неравенство Рао-Фреше-Крамера (второе замечательное свойство MSE)
  • Информация Фишера
  • Проверка некоторых оценок на эффективность (распределение Бернулли и оценка среднего для доли; и для нормального распределения N(mu, 1))

Доверительные интервалы

  • Предсказательный интервал
  • Что такое доверительный интервал
  • Зачем нужны доверительные интервалы
  • Асимптотические доверительные интервалы
  • Почему можно заменить дисперсию на выборочную дисперсию и это ничего не поломает
  • Асимптотический доверительный интервал для дисперсии
  • Точные доверительные интервалы для нормальных выборок (мало наблюдений)
  • Точные доверительные интервалы для нормальных выборок - средние
  • Теорема Фишера
  • Точный VS асимптотический доверительный интервал
  • Когда начинаются большие n (сходимость t-распределения к нормальному при больших n)
  • Точные доверительные интервалы для нормальных выборок - разность средних: случаи когда дисперсии известны, дисперсии неизвестны и равны, дисперсии неизвестны и не равны
  • Нерешенная проблема Беленца-Фишера и приближенное распределение Уэлча
  • Точные доверительные интервалы для нормальных выборок: разность средних для зависимых выборок
  • Точные доверительные интервалы для нормальных выборок: для дисперсии: случаи конда mu известно и неизвестно
  • Точные доверительные интервалы для нормальных выборок: отношение дисперсий
  • Как построить точный доверительный интервал для любого распределения (на примере равномерной выборки)
  • На практике точные доверительные интервалы для разных экстравагантных распределений не строят, а пытаются набрать как можно больше наблюдений и использовать ЦПТ

Проверка гипотез

  • Что такое гипотеза, что значит проверить гипотезу, на примере мартини Джеймса Бонда
  • Уровень значимости
  • Пошаговая процедура проверки гипотезы
  • Нельзя принять нулевую гипотезу (можно опровергнуть или не опровергнуть)
  • Альнатретивная гипотеза
  • P-value
  • Ошибки первого и второго рода
  • Презумпция нулевой гипотезы (и примеры различных формулировок гипотез)
  • Вычисление ошибок 1 и 2 рода для простого критерия
  • Вычисление ошибок 1 и 2 рода для доли
  • Мощность критерия

Какими бывают критерии

  • Параметрические критерии (включают в себя расчет параметров конкретного распределения)
  • Непараметрические (не завазяны на конкретное распределение)
  • Согласия (проверяется гипотеза о виде неизвестного закона распределения)

Параметрические критерии

  • z критерий гипотезы о долях
  • z критерий для разности незваисимых долей
  • z критерий для разности зависимых долей (несколько исследований одной и той же выборки)
  • Гипотезы о средних, z критерий
  • t-критерий для среднего (дисперсия известна, дисперсия неизвестна)
  • Гипотезы о разности средних, z критерий
  • Точные критерии о разности средних: случаи когда дисперсии известны, дисперсии неизвестны и равны, дисперсии неизвестны и не равны
  • Алгоритм подбора критерия:
    • Выборка нормальна?
    • нет: z тест (ЦПТ)
    • да: дисперсия известна?
    • да: z тест (точный)
    • нет: дисперсии равны?
    • да: тест Стьюдента
    • нет: тест Уэлча
    • --- если выборка оказалась маленькой, а данные не нормальны можно использовать непараметрические критерии и процедуру бутстрапа
  • Разность средних для зависимых выборок (исп. одновыборочный критерий стьюдента)
  • Гипотезы о дисперсиях: случаи конда mu известно и неизвестно
  • Тест Фишера для отношения дисперсий

Непараметрические тесты, критерии согласия, бутстрап

  • Непараметрические критерии: критерий знаков
  • Непараметрические критерии: критерий знаков двухвыборочный
  • Непараметрические критерии: ранговые критерии
  • Одновыборочный критерий Уилкоксона
  • Двухвыборочный критерий Уилкоксона
  • Двухвыборочный критерий Манна-Уитни (накладывается ограничение одинаковой формы распределения)
  • Бутстрап и его схема по шагам
  • Доверительный интервал Эфрона
  • Особенности Бутстрапа, Центрирование
  • Доверительный интервал Холла
  • t-процентильный доверительный интервал
  • Проверка гипотез при помощи бутстрапа
  • Проблемы Бутстрапа
  • Какой процент выборки используется при построении бутстрап выборок
  • Эмпирическая функция распределения
  • Несмещенность, состоятельность, асимптотическая нормальность эмпирической функции распределения
  • Критерий Колмогорова (для непрерывных распределений)
  • Расстояние между функциями распределения
  • Теорема Колмогорова (новый союзник)
  • Другие способы подсчета расстояния: критерий Крамера-Мизеса, критерий Андерсона-Дарменга
  • Гипотезы об однородности выборок
  • Критерий Колмагорова-Смирнова
  • Критерий Пирсона (для дискретных распределений, и для непрерывных с оговорками)
  • Гипотезы об однородности выборок на основании критерия Пирсона








Комментариев нет:

Отправить комментарий