Калькулятор теоремы Байеса: обновление вероятности от априорной к апостериорной

simulator intermediate ~7 min
Загрузка симуляции...
Апостериорная: P(H|E) ≈ 16,1%

При базовой частоте 1%, чувствительности 95% и специфичности 95% положительный тест даёт лишь 16,1% вероятности наличия заболевания. Из 1000 человек ~10 больны (9,5 получат положительный тест), но ~50 здоровых тоже получат положительный результат. Лишь 9,5 из 59,5 положительных тестов истинны — наглядная иллюстрация ошибки базовой частоты.

Формула

P(H|E) = P(E|H) · P(H) / [P(E|H) · P(H) + P(E|¬H) · P(¬H)]
P(E|¬H) = 1 - specificity (false positive rate)
PPV = True Positives / (True Positives + False Positives)

Что такое теорема Байеса?

Теорема Байеса — математическое правило для обновления убеждений в свете новых данных. Сформулированная преподобным Томасом Байесом и опубликованная посмертно в 1763 году, она даёт точную формулу: апостериорная вероятность гипотезы H при наличии данных E равна правдоподобию наблюдения E при истинности H, умноженному на априорную вероятность H, делённому на полную вероятность наблюдения E.

Ошибка базовой частоты

Одно из важнейших когнитивных искажений, раскрытых теоремой Байеса, — ошибка базовой частоты, то есть наша склонность игнорировать, насколько распространено или редко явление, при интерпретации данных. Медицинский тест с 95% точностью звучит надёжно, но если болезнь поражает лишь 1% населения, положительный результат примерно в 84% случаев оказывается ложным. Этот контринтуитивный результат имеет глубокие последствия для медицинского скрининга, правосудия и любой области, где проводится проверка на редкие события.

Натуральные частоты

Дерево вероятностей и точечный дисплей в этом симуляторе используют натуральные частоты — показывая количества из 1000 вместо абстрактных процентов. Исследования Герда Гигеренцера показывают, что люди понимают байесовские рассуждения значительно лучше, когда информация представлена таким образом. Вместо жонглирования условными вероятностями можно просто посчитать: из 1000 человек около 10 больны, примерно 9,5 получат положительный тест (истинно положительные), и около 50 здоровых тоже получат положительный результат (ложноположительные). Итого лишь 9,5 из ~60 положительных тестов — настоящие.

Интерактивное исследование

Используйте ползунки, чтобы увидеть, как апостериорная вероятность меняется при разных априорных значениях, чувствительности и специфичности. Обратите внимание, как драматично падает апостериорная вероятность, когда базовая частота (априорная вероятность) очень мала — это математическая основа ошибки базовой частоты. Столбчатая диаграмма внизу показывает масштаб байесовского обновления: насколько один фрагмент данных сдвигает убеждения от априорной к апостериорной вероятности.

Частые вопросы

Что такое теорема Байеса?

Теорема Байеса — формула для обновления вероятности гипотезы на основе новых данных. Опубликованная посмертно Томасом Байесом в 1763 году, она гласит: P(H|E) = P(E|H)·P(H) / P(E). Это математическая основа рационального обновления убеждений, центральная в статистике, машинном обучении и теории принятия решений.

Что такое ошибка базовой частоты?

Ошибка базовой частоты — это склонность игнорировать априорную вероятность (базовую частоту) при оценке данных. Например, даже медицинский тест с 95% точностью при распространённости заболевания 1% даёт в основном ложноположительные результаты, потому что 5% ложных срабатываний от большой здоровой популяции превышают 95% обнаружения от малой больной.

Что такое натуральные частоты и почему они помогают?

Натуральные частоты выражают вероятности как количества в группе (например, «10 из 1000»), а не как проценты. Исследования Герда Гигеренцера показывают, что люди рассуждают о байесовских задачах значительно точнее, когда информация представлена в натуральных частотах, а не в условных вероятностях.

Чем чувствительность отличается от специфичности?

Чувствительность (доля истинно положительных) — вероятность положительного теста при наличии заболевания: P(E|H). Специфичность (доля истинно отрицательных) — вероятность отрицательного теста при отсутствии заболевания: P(¬E|¬H). Хороший диагностический тест требует высоких значений обоих показателей, но их относительная важность зависит от базовой частоты и цены ошибок.

Источники

Встроить

<iframe src="https://homo-deus.com/lab/cognitive-biases/bayes-theorem/embed" width="100%" height="400" frameborder="0"></iframe>
View source on GitHub