Обычно в науке принято говорить об открытии (или наличии связи между явлениями, или о наличии эффекта), оценивая “значимость” эффекта. Часто можно услышать “5 сигма” (в физике) и p < 0.05 (во всяких разных областях). Поговорим про эту самую p-value и чем она плоха.
Для начала в таких экспрементах ставится “нулевая гипотеза”: например, что эффекта или связи между явлениями нет. Дальше оценивается вероятность того, что в этом предположении получатся наблюдаемые значения. Если повторять эксперимент много-много раз, какую-то долю таких экспериментов можно объяснить через нулевую гипотезу — это p-value. Обычно принято p-value <0.05 во всяких медицинских науках (т.е. вероятность меньше 5%). В физике открытием считается 5 сигма, т.е. p-value < 1/ 3500000. Эта вероятность оценивает вероятность получить результат при условии заданной модели.
И тут начинаются непонятки. Люди открывают пабмед, видят, что у такого-то лекарства p<0.01 и заявляют, что это вот хорошее лекарство. Или смотрят, что вот в огромной статистике наблюдали влияние такого-то вещества на продолжительность жизни с p<0.001. Но на самом деле важно понимать, чем эта вероятность не является:
- это не утверждение о правильности проверяемой гипотезы (увы любители пабмеда)
- это не оценка силы или величины эффекта
- это не вероятность того, что результат — “ложное срабатывание”
- это не сравнение с абсолютно случайным результатом
Это исключительно проверка конкретной “нулевой гипотезы”. Она может быть плохо поставлена, она не отражает величину эффекта. Она ничего не знает о начальной вероятности эффекта. В реальных экспериментах величина в p=0.01 может значить вероятность “ложного” срабатывания в десятки процентов. Или, например, может быть значимый эффект на огромной выборке (как с лекарством выше), вот только продолжительность жизни оно меняет на 2 дня в среднем.
С этим связана главная проблема такого критерия: он невоспроизводим. Если мне дали исследование с p<0.05, я не могу проверить, было ли оно сделано правильно. С другой стороны, это же приводит к популярному нынче “p-hacking”, когда статистику подкручивают так, чтобы p<0.05.
С фундаментальной точки зрения, есть и другие проблемы:
- p value предполагает большое количество экспериментов (а на деле сполшь и рядом исследования с количеством участников в 10-20 человек и p<0.001).
- предполагается, что начальные условия всех экспериментов ровно одинаковые (что совершенно нереально)
- они не дают различения между “эффекта нет” или “недостаточно данных”. Возможно, просто дисперсия результатов такая, что можно получить любое значение p.
И что же делать? Во-первых, можно модифицировать оценку значимости, пофиксив многие из минусов.
Но гораздо лучше для этого подходит байесовская оценка. Она говорит о вероятности того, что выбранная модель справедлива, если у нас есть такой набор данных. Довольно сильно отличается от концепции p-value, которая оценивает ровно обратное, правда? Т.е. задача ставится иначе: какова вероятность того, что эффекта нет, если у нас есть вот такой набор данных (и некоторые априорные знания о ситуации). Другими словами, мы оцениваем, насколько полно наше знание об эффекте. Как это работает конкретно стоит посмотреть по этой ссылке, например.
(продолжение ниже)
Бонусы такие:
- вероятность понимается в смысле того, что мы бы ожидали получить от эксперимента (т.е. оценивает степень уверенности в чем-то). Это значит, что если у нас маленькая статистика, то и распределение вероятности будет очень широким.
- полностью воспроизводимо (т.е. я могу напечатать в статье мою априорную вероятность и дальше другой эксперимент может полностью проверить мой результат)
- дает понимание силы эффекта (в т.ч. дает различие между отсутствием эффекта и недостаточной статистикой)
- может подстравиться под эксперимент по ходу дела: априорные знания обновляются на каждом следующем этапе эксперимента. - работает для экспериментов, проведенных в разных условиях.
- можно посчитать конкретную величину, типа p-value, но можно и дать полное распределение вероятности, со всеми особенностями.
Главная сложность с байесом в том, что надо правильно выбрать априорное распределение значений, т.к. от этого сильно зависит результат. Это целая наука:)
К сожалению, пока p-values все еще стандарт, хотя все чаще звучат призывы к перемам и все больше людей используют байесовскую оценку (например, мы в статьях про гравитационные волны все оцениваем с помощью байеса, а потом пересчитываем в p-value, чтобы редакторам журналов было приятно).