Поговорим немного про значимость научного открытия

Обычно в науке принято говорить об открытии (или наличии связи между явлениями, или о наличии эффекта), оценивая “значимость” эффекта. Часто можно услышать “5 сигма” (в физике) и p < 0.05 (во всяких разных областях). Поговорим про эту самую p-value и чем она плоха.

Для начала в таких экспрементах ставится “нулевая гипотеза”: например, что эффекта или связи между явлениями нет. Дальше оценивается вероятность того, что в этом предположении получатся наблюдаемые значения. Если повторять эксперимент много-много раз, какую-то долю таких экспериментов можно объяснить через нулевую гипотезу — это p-value. Обычно принято p-value <0.05 во всяких медицинских науках (т.е. вероятность меньше 5%). В физике открытием считается 5 сигма, т.е. p-value < 1/ 3500000. Эта вероятность оценивает вероятность получить результат при условии заданной модели.

И тут начинаются непонятки. Люди открывают пабмед, видят, что у такого-то лекарства p<0.01 и заявляют, что это вот хорошее лекарство. Или смотрят, что вот в огромной статистике наблюдали влияние такого-то вещества на продолжительность жизни с p<0.001. Но на самом деле важно понимать, чем эта вероятность не является:

это не утверждение о правильности проверяемой гипотезы (увы любители пабмеда)
это не оценка силы или величины эффекта
это не вероятность того, что результат — “ложное срабатывание”
это не сравнение с абсолютно случайным результатом

Это исключительно проверка конкретной “нулевой гипотезы”. Она может быть плохо поставлена, она не отражает величину эффекта. Она ничего не знает о начальной вероятности эффекта. В реальных экспериментах величина в p=0.01 может значить вероятность “ложного” срабатывания в десятки процентов. Или, например, может быть значимый эффект на огромной выборке (как с лекарством выше), вот только продолжительность жизни оно меняет на 2 дня в среднем.

С этим связана главная проблема такого критерия: он невоспроизводим. Если мне дали исследование с p<0.05, я не могу проверить, было ли оно сделано правильно. С другой стороны, это же приводит к популярному нынче “p-hacking”, когда статистику подкручивают так, чтобы p<0.05.

С фундаментальной точки зрения, есть и другие проблемы:

p value предполагает большое количество экспериментов (а на деле сполшь и рядом исследования с количеством участников в 10-20 человек и p<0.001).
предполагается, что начальные условия всех экспериментов ровно одинаковые (что совершенно нереально)
они не дают различения между “эффекта нет” или “недостаточно данных”. Возможно, просто дисперсия результатов такая, что можно получить любое значение p.

И что же делать? Во-первых, можно модифицировать оценку значимости, пофиксив многие из минусов.

Но гораздо лучше для этого подходит байесовская оценка. Она говорит о вероятности того, что выбранная модель справедлива, если у нас есть такой набор данных. Довольно сильно отличается от концепции p-value, которая оценивает ровно обратное, правда? Т.е. задача ставится иначе: какова вероятность того, что эффекта нет, если у нас есть вот такой набор данных (и некоторые априорные знания о ситуации). Другими словами, мы оцениваем, насколько полно наше знание об эффекте. Как это работает конкретно стоит посмотреть по этой ссылке, например.

(продолжение ниже)

Бонусы такие:

вероятность понимается в смысле того, что мы бы ожидали получить от эксперимента (т.е. оценивает степень уверенности в чем-то). Это значит, что если у нас маленькая статистика, то и распределение вероятности будет очень широким.
полностью воспроизводимо (т.е. я могу напечатать в статье мою априорную вероятность и дальше другой эксперимент может полностью проверить мой результат)
дает понимание силы эффекта (в т.ч. дает различие между отсутствием эффекта и недостаточной статистикой)
может подстравиться под эксперимент по ходу дела: априорные знания обновляются на каждом следующем этапе эксперимента. - работает для экспериментов, проведенных в разных условиях.
можно посчитать конкретную величину, типа p-value, но можно и дать полное распределение вероятности, со всеми особенностями.

Главная сложность с байесом в том, что надо правильно выбрать априорное распределение значений, т.к. от этого сильно зависит результат. Это целая наука:)

К сожалению, пока p-values все еще стандарт, хотя все чаще звучат призывы к перемам и все больше людей используют байесовскую оценку (например, мы в статьях про гравитационные волны все оцениваем с помощью байеса, а потом пересчитываем в p-value, чтобы редакторам журналов было приятно).

Похожие заметки

Научный детектив про LK-99, или как сварить сверхпроводник в кастрюле на кухне

Как я ищу научную информацию?

Список блогов по физике (и не только), к мнению которых я прислушиваюсь