Статистика

Моя задача — рассказать вам удивительные вещи про статистику. Я хотел бы, чтобы вы задумались о месте случайного, непредсказуемого в нашем мире, о том, как мы на него реагируем, что о нем думаем или не думаем.

Орел или решка

Представьте, что половина аудитории выбрасывает на монетах такую комбинацию — орел, а затем решка и еще раз решка. Искомая комбинация выпала после 10 бросков. Сделав это несколько раз, вы узнаете, с какого раза в среднем выпадает «орел-решка-решка». Другая половина аудитории выбрасывает комбинацию «орел-решка-орел». Считаете, с какого раза у вас выпадает «орел-решка-орел», и находите среднее значение. Есть один неоспоримый математический факт: если у вас есть два числа, тогда верно одно из трех. Или они равны, или первое больше второго, или второе больше первого. Что происходит в нашем случае? Есть варианты А, В, С. Большинство людей думает, что правильный ответ — В. И с ними согласно большинство самых образованных математиков. Однако правильный ответ — А. Среднее число бросков до выпадения комбинации «орел-решка-орел» — 10, а для «орел-решка-решка» — 8. И этому есть объяснение. «Орел-решка-орел» как бы накладывается сама на себя. Если вы выбросили  «орел-решка-орел-решка-орел», то из этой последовательности вы можете извлечь две искомые комбинации всего за пять бросков. А с комбинацией «орел-решка-решка» этого проделать нельзя. Оказывается, это важно.

Генетика

Позвольте небольшой экскурс в мою любимую область — в генетику. Если вы посмотрите на нить ДНК, то вы увидите не орлы и решки, а четыре буквы — А, G, С, T. Специальные химические ножницы — рестрикционные ферменты — обрезают нить ДНК, когда видят определенную последовательность. Эти ферменты играют громадную роль в молекулярной биологии. И вместо того чтобы спрашивать: «Когда же выпадут орел-решка-орел?», вы можете, например, спросить: «Какой длины будут куски, отрезанные рестрикционными ферментами, которые срабатывают, когда видят комбинацию G-A-A-G?» Это элементарный пример связи генетики и теории вероятности.

Проекты

Мы занимаемся двумя проектами. Первый — «Геном человека», задача которого — полностью прочитать геном человека. Другой — это международный проект HapMap. Если в проекте «Геном человека» мы пытаем найти, что нас объединяет, то в HapMap мы пытаемся объяснить различия между разными людьми.

Нас это интересует по целому ряду причин. Главное, мы хотим понять, как одни отличия делают человека уязвимым для некоторых болезней, например для диабета второго типа, а другие приводят к проблемам с сердцем, к припадкам или к аутизму. Есть и второй большой проект: в этой стране он совсем недавно получил финансовую поддержку фонда Welcome Trust. В рамках этого проекта обследуют тысяч людей с восемью разными болезнями — с диабетом первого и второго типа, с коронарной болезнью сердца, с биполярным аффективным расстройством. Наша цель — понять генетические механизмы, чтобы узнать, какие генетические отклонения вызывают эти болезни. Если мы сможем понять генетические механизмы, сможем подсмотреть, как болезнь работает. Тогда мы разработаем новые методы лечения, научимся предотвращать эти болезни.

Статистическая вероятность

Давайте вернемся к разговору о неопределенности. Вот вам еще одна загадка. Предположим, мы сдаем тест на заболевание, и результаты верны в 99% случаев. Я попрошу одного из вас сдать этот анализ. Предположим, что речь идет о тесте на ВИЧ. Результаты теста показывают, что человек болен. Какова вероятность, что это так? Тест верен в 99% случаев. Так что логично предположить, что правильный ответ — 99%. Это неправильный ответ, потому что многое зависит от того, насколько часто это заболевание встречается. Среди 100 больных тест с 99% точностью выдаст 99 положительных результатов. А среди остальных здоровых людей тест с точностью оценки в 99% только в 1% случае даст неправильные результаты. Но этих людей столько, что неправильных результатов будет очень много. Среди всех людей с положительным результатом только один человек действительно болен. Так что, даже если мы думаем, что это точный тест, нужно учитывать и другую информацию.

А вот более типичный пример аналогичного случая. В Англии этот случай стал широко известен: у женщины по имени Салли Кларк внезапно умерло два ребенка. Сначала думали, что они умерли от того, что обычно называют «смерть в колыбели», по-научному — синдром внезапной детской смерти. По целому ряду причин ее потом обвинили в убийстве. На суде показания давал квалифицированный педиатр: он сказал, что шанс внезапной «смерти в колыбели» сразу двух детей в такой семье, как у нее — а у нее была хорошая работа и она не курила, — составляет 1 на 73 миллиона. Ей вынесли обвинительный приговор. А недавно, после второй апелляции ее оправдали. Это произошло во многом из-за того, что эксперт неправильно воспользовался статистикой. Он совершил две ошибки. Откуда он взял цифру 1 из 73 миллионов? Он прочитал исследование, где было написано, что вероятность «смерти в колыбели» в такой семье, как у Салли Кларк, составляет 1 на 8500. Поэтому он решил: если в семье случилась одна смерть в колыбели, значит, вероятность следующей смерти не меняется. Статистик назовет такое предположение «презумпцией независимости». К сожалению, во-первых, в такой ситуации предположение  нужно проверять эмпирически, а во-вторых, очевидно, что это предположение неверно. Рассчитывать вероятность второй смерти, не учитывая эту информацию, не просто глупо — это порочит науку.

Ошибки

Люди часто делают ошибки, когда рассуждают о невероятном. Мы прекрасно справляемся с языковыми тонкостями, но возникает вопрос: почему мы ошибаемся в таких ситуациях? Мы неправильно рассуждаем о невероятном. Так происходит в нашей повседневной жизни. Как вы знаете из многих лекций, на статистике держится множество научных исследований — в общественных науках, в медицине, в промышленности. Но мы плохо работаем со статистикой.

Нам нужно понять, где граница нашей компетенции. Те же проблемы возникли, когда начали использовать анализ ДНК в суде, когда ученые, адвокаты и даже судьи регулярно неправильно представляли доказательства. Хочется верить, что это делалось ради благих целей, но доказательства от этого не становились правильными. В случаях неопределенности мы всегда ошибаемся. По крайней мере надо об этом знать. А в идеале — попытаться это как-то исправить.

Лекция