пятница, 30 августа 2024 г.

Hattifatteners

Swedish: hattifnattar

Small white ghost-like creatures that resemble worn socks. Hattifatteners are always on the move and travel the sea in large groups (but always in odd numbers), such as boat convoys. They meet every year on a lonely island. Their only goal in life is to reach the horizon. They may communicate using telepathy. The Hattifatteners cannot see very well, but their sense of touch is very strong, and they can feel ground vibrations and electricity. Hattifatteners assemble once a year when they "recharge" in a thunderstorm, when they can cause electrical burns. Hattifatteners grow from seeds, but only if this seed is sown on Midsummer Eve.

среда, 28 августа 2024 г.

sql contents



четверг, 22 августа 2024 г.

Курс матстата

 Основные понятия

  • Случайная величина
  • Плотность распределения и функция распределения
  • Закон распределения
  • Математическое ожидание
  • Дисперсия
  • Какие именно бывают случайные величины
  • Когда используются те или иные распределения случайных величин (их связь с реальностью)
  • Описательные статистики: среднее, дисперсии, медианы и пр.
  • Работа с данными: предобработка, сбор, разведочный анализ, визуализация

 Понятие случайной величины 

  • Распределение дискретной случайной величины
  • Функция распределения дискретной случайной величины
  • Распределение непрерывной случайной величины
  • Функция распределения непрерывной случайной величины
  • Свойства функции распределения случайной величины

Характеристики случайной величины

  • Математическое ожидание
  • Свойства математического ожидания
  • Дисперсия
  • Свойства дисперсии
  • Мода случайной величины
  • Медиана случайной величины
  • Квантиль

Какими бывают случайные величины

  • Распределение Бернулли
  • Биномиальное распределение
  • Геометрическое распределение
  • Распределение Пуассона
  • Експоненциальное распределение
  • Равномерное распределение
  • Нормальное распределение

Описательные статистики и выборки

  • Понятие генеральной совокупности
  • Понятие выборки (случайная выборка, репрезентативная выборка, сратифицированная выборка)
  • independent identically distributed
  • Понятие статистика
  • Выборочное среднее, медиана, дисперсия, перцентиль, квартиль
  • Сравнение теоретических величин и выборочных величин
 

Гистограмма и эмпирическая функция распределения

  • Эмпирическая функция распределения cdf
  • Эмперическая плотность распределения pdf
  • Kernel density estimation на гистограмме
  • Box plot

Зависимые случайные величины

  • определение зависимых и независимых случайных величин
  • Ковариация
  • Свойства ковариации
  • Корреляция Пирсона
  • Корреляция Спирмена (корреляция Пирсона между рангами, определение рангов)
  • Корреляция и причинность

Нормальное распределение и его свойства

  • Математическое ожидание нормального распределения
  • Дисперсия нормального распределения
  • Функция и плотность распределения нормального распределения
  • Стандартное нормальное распределение (центрирование и нормирование)
  • Правила сигм
  • Тяжелые хвосты
  • Эксцесс и Куртосис

Многомерное нормальное распределение

  • Вектор математических ожиданий
  • Ковариационная матрица

Преобразование Бокса-Кокса

  • логарифмирование данных (на примере цен)
  • как избавиться от длинных тяжелых хвостов в данных чтобы применять к данным стандартные методы статистики

Масштабирование и категориальные переменные 

  • Пример рост вес и их размерность
  • Подсчет расстояния между переменными разных размерностей
  • Способы масштабирования
  • Нормализация standard scaler
  • Масштабирование на отрезок [0;1]
  • Устойчивая к выбросам нормализация
  • Категориальные переменные
  • Dummy trap
  • Линейная зависимость и мультиколлинеарность
  • Особенности бинарного кодирования и проклятие размерности

Распределения связанные с нормальным

  • Хи-квадрат распределение
  • Число степеней свободы для Хи-квадрат распределения
  • Распределение Стьюдента
  • Распределение Фишера

Закон Больших Чисел (ЗБЧ)

  • Собственно теорема
  • Сходимость по вероятности
  • Свойства сходимости по вероятности plim

Центральная Предельная Теорема (ЦПТ)

  • Иллюстрация теоремы на игральных костях
  • Сходимость по распределению
  • Средиземье и Крайнеземье в статистике
  • ЗБЧ vs ЦПТ сравнение формулировок
  • Виды сходимостей (почти наверное, по вероятности, по распределению)
  • Генерация распределений и квантильное преобразование

Схема математической статистики

  • Построение большой карты/схемы для математической статистики
  • Как оценить? (метод моментов, метод максимального правдоподобия)
  • Союзники асимптотические при большом n: ЦПТ и дельта метод
  • Союзники точные: Теорема Фишера, Хи-квадрат, t-статистика, F(n,k)
  • Хорошие свойства: Несмещенность, Состоятельность, Эффективность
  • Пример про деревню Гипотезово

Точечные оценки и метод моментов

  • Точечная оценка параметров неизвестного распределения по выборке
  • Момент 1 порядка и более высоких порядков
  • Использование ЗБЧ

Асимптотические доверительные интервалы

  • Асимптотический доверительный интервал для среднего
  • Длина доверительного интервала
  • Асимптотический доверительный интервал для разности средних
  • Асимптотический доверительный интервал для долей
  • Асимптотический доверительный интервал для разности долей
  • Дельта метод

Хорошие свойства оценок

  • Несмещенность
  • Состоятельность
  • Асимптотическая несмещенность
  • Сравнение оценок, MSE (mean squared error)
  • Несмещенная оценка для среднего и дисперсии
  • Состоятельные оценки для среднего и дисперсии
  • Состоятельность и несмещенность на примерах
  • Дилема: Смещение VS Разброс
  • MSE в виде суммы смещения и разброса Bias-variance decomposition (первое замечательное свойство MSE)
  • Регуляризация
  • Эффективность оценок
  • Неравенство Рао-Фреше-Крамера (второе замечательное свойство MSE)
  • Информация Фишера
  • Проверка некоторых оценок на эффективность (распределение Бернулли и оценка среднего для доли; и для нормального распределения N(mu, 1))

Доверительные интервалы

  • Предсказательный интервал
  • Что такое доверительный интервал
  • Зачем нужны доверительные интервалы
  • Асимптотические доверительные интервалы
  • Почему можно заменить дисперсию на выборочную дисперсию и это ничего не поломает
  • Асимптотический доверительный интервал для дисперсии
  • Точные доверительные интервалы для нормальных выборок (мало наблюдений)
  • Точные доверительные интервалы для нормальных выборок - средние
  • Теорема Фишера
  • Точный VS асимптотический доверительный интервал
  • Когда начинаются большие n (сходимость t-распределения к нормальному при больших n)
  • Точные доверительные интервалы для нормальных выборок - разность средних: случаи когда дисперсии известны, дисперсии неизвестны и равны, дисперсии неизвестны и не равны
  • Нерешенная проблема Беленца-Фишера и приближенное распределение Уэлча
  • Точные доверительные интервалы для нормальных выборок: разность средних для зависимых выборок
  • Точные доверительные интервалы для нормальных выборок: для дисперсии: случаи конда mu известно и неизвестно
  • Точные доверительные интервалы для нормальных выборок: отношение дисперсий
  • Как построить точный доверительный интервал для любого распределения (на примере равномерной выборки)
  • На практике точные доверительные интервалы для разных экстравагантных распределений не строят, а пытаются набрать как можно больше наблюдений и использовать ЦПТ

Проверка гипотез

  • Что такое гипотеза, что значит проверить гипотезу, на примере мартини Джеймса Бонда
  • Уровень значимости
  • Пошаговая процедура проверки гипотезы
  • Нельзя принять нулевую гипотезу (можно опровергнуть или не опровергнуть)
  • Альнатретивная гипотеза
  • P-value
  • Ошибки первого и второго рода
  • Презумпция нулевой гипотезы (и примеры различных формулировок гипотез)
  • Вычисление ошибок 1 и 2 рода для простого критерия
  • Вычисление ошибок 1 и 2 рода для доли
  • Мощность критерия

Какими бывают критерии

  • Параметрические критерии (включают в себя расчет параметров конкретного распределения)
  • Непараметрические (не завазяны на конкретное распределение)
  • Согласия (проверяется гипотеза о виде неизвестного закона распределения)

Параметрические критерии

  • z критерий гипотезы о долях
  • z критерий для разности незваисимых долей
  • z критерий для разности зависимых долей (несколько исследований одной и той же выборки)
  • Гипотезы о средних, z критерий
  • t-критерий для среднего (дисперсия известна, дисперсия неизвестна)
  • Гипотезы о разности средних, z критерий
  • Точные критерии о разности средних: случаи когда дисперсии известны, дисперсии неизвестны и равны, дисперсии неизвестны и не равны
  • Алгоритм подбора критерия:
    • Выборка нормальна?
    • нет: z тест (ЦПТ)
    • да: дисперсия известна?
    • да: z тест (точный)
    • нет: дисперсии равны?
    • да: тест Стьюдента
    • нет: тест Уэлча
    • --- если выборка оказалась маленькой, а данные не нормальны можно использовать непараметрические критерии и процедуру бутстрапа
  • Разность средних для зависимых выборок (исп. одновыборочный критерий стьюдента)
  • Гипотезы о дисперсиях: случаи конда mu известно и неизвестно
  • Тест Фишера для отношения дисперсий

Непараметрические тесты, критерии согласия, бутстрап

  • Непараметрические критерии: критерий знаков
  • Непараметрические критерии: критерий знаков двухвыборочный
  • Непараметрические критерии: ранговые критерии
  • Одновыборочный критерий Уилкоксона
  • Двухвыборочный критерий Уилкоксона
  • Двухвыборочный критерий Манна-Уитни (накладывается ограничение одинаковой формы распределения)
  • Бутстрап и его схема по шагам
  • Доверительный интервал Эфрона
  • Особенности Бутстрапа, Центрирование
  • Доверительный интервал Холла
  • t-процентильный доверительный интервал
  • Проверка гипотез при помощи бутстрапа
  • Проблемы Бутстрапа
  • Какой процент выборки используется при построении бутстрап выборок
  • Эмпирическая функция распределения
  • Несмещенность, состоятельность, асимптотическая нормальность эмпирической функции распределения
  • Критерий Колмогорова (для непрерывных распределений)
  • Расстояние между функциями распределения
  • Теорема Колмогорова (новый союзник)
  • Другие способы подсчета расстояния: критерий Крамера-Мизеса, критерий Андерсона-Дарменга
  • Гипотезы об однородности выборок
  • Критерий Колмагорова-Смирнова
  • Критерий Пирсона (для дискретных распределений, и для непрерывных с оговорками)
  • Гипотезы об однородности выборок на основании критерия Пирсона








понедельник, 12 августа 2024 г.

Reporting attribution model GA4

 https://support.google.com/analytics/answer/10597962?hl=en


An attribution model can be a rule, a set of rules, or a data-driven algorithm that determines how credit is assigned to touchpoints along a user's path to completing important actions.

Reporting attribution model lets you select the attribution model you want to use to attribute credit in your Google Analytics 4 reports and the reports of any linked Firebase projects. Changing the reporting attribution model applies to historical and future data. Learn more Get started with attribution.

Changing the reporting attribution model is reflected in all key event reports and explorations that use event-scoped traffic dimensions, for example, Source, Medium, Campaign, and Default channel group. In Explore, you can view a full list of dimensions that are compatible with attribution. User- and session-scoped traffic dimensions, such as Session source or First user medium, are unaffected by changes to the reporting attribution model.

Note: The first click, linear, time decay, and position-based attribution models are no longer available as of November 2023. Learn more About the deprecated models.

Fractional credit

Based on your selected attribution model, you'll notice changes to the following metrics when used with event-scoped traffic dimensions: Key events, Total revenue, Purchase revenue, and Total ad revenue.

When you switch to a non-last click attribution model, you may notice decimals or "fractional credit" for the first time in these columns. This is because credit for a given key event is distributed between contributing ad interactions according to your selected attribution model.

Example
You select the Linear model. A user follows the path keyword1 > keyword2 and then converts. In this case, each keyword will display 0.5 in the Key events column from that key event.

Channels that can receive credit

see original page

Key event lookback window



Users can trigger key events days or weeks after interacting with your ad.


The conversion window determines how far back in time a touchpoint is eligible for attribution credit. For example, a 30-day conversion window will result in January 30th conversions being attributed only to touchpoints occurring from January 1-30.

The conversion window applies to all attribution models and all conversion types. Changes to the conversion window apply going forward and will be reflected in all reports within your Analytics property.

For Acquisition conversion events (first_open and first_visit), the default conversion window is 30 days. You can switch to 7 days if you have different attribution needs.

For all other conversion events, the default conversion window is 90 days. You can also choose 30 days or 60 days.
Note: The key event lookback window you choose also applies to session attribution.