90
© Igor Kleiner Школа Обработки и Анализа Данных – ШОАДик Общество скептиков - Москва 2014 версия просто, научно, полезно ПАРАДОКСЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ PLEASURES OF PROBABILITY

Парадоксы теории вероятностей - мифы и рифы теории вероятностей ( скептики 2014)

Embed Size (px)

DESCRIPTION

Выступление в обществе скептиков Москвы 2014 временная версия доклада позже будет заменена на более новую

Citation preview

© Igor Kleiner

Школа Обработки и Анализа Данных – ШОАДик

Общество скептиков - Москва 2014

версия

просто, научно, полезно

ПАРАДОКСЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ

PLEASURES OF PROBABILITY

ТРЕЙЛЕР

ЕРАЛАШ

Выпуск 45, серия 2, «На всякий случай»

http://www.youtube.com/watch?v=tez_PS3H6s0

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Длину Ленина умножить на ширину Ленина

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Вычислить интеграл по поверхности

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Теория вероятностей - «Метод Монте Карло»

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Теория вероятностей - «Метод Монте Карло»

• Большое количество случайных точек выбирают в квадрате

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Теория вероятностей - «Метод Монте Карло»

• Большое количество случайных точек выбирают в квадрате

• Сколько в среднем точек попадет в нижний треугольник?

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Теория вероятностей - «Метод Монте Карло»

• Большое количество случайных точек, бросаются в квадрат

• Сколько в среднем точек попадет в нижний треугольник?

• Чему равна площадь нижнего треугольника?

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Теория вероятностей - «Метод Монте Карло»

• Большое количество случайных точек, бросаются в квадрат

• Сколько в среднем точек попадет в нижний треугольник? 1\2

• Чему равна площадь нижнего треугольника?

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Теория вероятностей - «Метод Монте Карло»

• Большое количество случайных точек, бросаются в квадрат

• Сколько в среднем точек попадет в нижний треугольник? 1\2

• Чему равна площадь нижнего треугольника? 1\2

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Теория вероятностей - «Метод Монте Карло»

• Большое количество случайных точек, бросаются в квадрат

• Сколько в среднем точек попадет в нижний треугольник? 1\2

• Чему равна площадь нижнего треугольника? 1\2

МЕТОД «МОНТЕ КАРЛО» ДЛЯ ВЫЧИСЛЕНИЯ

ПЛОЩАДИ

• Количество случайных точек, брошенных в квадрат и

попавших во внутрь контура, стремится (в среднем, по

вероятности) к площади контура

МЕТОД «МОНТЕ КАРЛО» ДЛЯ ВЫЧИСЛЕНИЯ

ПЛОЩАДИ

• “Дайте мне иглу и время и я вычислю пи»

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Дайте мне иглу,

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Дайте мне иглу, время

«КАК НАЙТИ ПЛОЩАДЬ ЛЕНИНА?»

• Дайте мне иглу, время и Ленина

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

• Мать ребенка была признана виновной в убийстве

• “ Sally Clark case . Clark was a layer wrongly convicted in 1999

of the murder of her two baby sons, largely on the basis of

Meadow's evidence; her conviction was quashed in 2003 after

she had spent three years in jail.[ Sally Clark never recovered

from the experience, developed a number of serious psychiatric

problems including serious alcohol dependency and died in

2007 from alcohol poisoning

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

• Мать ребенка была признана виновной в убийстве

• Только для независимых событий, вероятность того, что они

оба произойдут равна произведению вероятностей

• Для зависимых событий – это не верно

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

• Вероятность(подозреваемый виновен при условии, что его

отпечатки пальцев совпадают с отпечатками найденными,

на месте преступления) = ?

• Р(подозреваемый виновен | отпечатки совпадают) = ?

• Р(А | B) = ?

+ =

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

• Р(подозреваемый виновен | отпечатки совпадают) = ?

• Р(А | B) = ?

+ =

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

• Р(подозреваемый виновен | отпечатки совпадают) = ?

• Р(А | B) = ?

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

• Р(подозреваемый виновен | отпечатки совпадают) = ?

• Р(А | B) = ?

• Дилемма: Искомая условная вероятность зависит от

вероятности того, что подозреваемый виновен

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

• Р(подозреваемый виновен | отпечатки совпадают) = ?

• Р(А | B) = ?

• Дилемма: Искомая условная вероятность зависит от

вероятности того, что подозреваемый виновен

• Какова вероятность, что вы виновны?

• Какова вероятность, что случайный человек виновен?

• 0.1? 0.01? 0.001?

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

• Р(подозреваемый виновен | отпечатки совпадают) = ?

• Р(А | B) = ?

• Дилемма: Искомая условная вероятность зависит от вероятности того, что подозреваемый виновен

• Какова вероятность, что вы виновны?

• Какова вероятность, что случайный человек виновен?

• 0.1? 0.01? 0.001 - разные предпосылки дадут разные ответы

ТЕОРИЯ ВЕРОЯТНОСТЕЙ В СУДЕ

Дилемма: Искомая условная вероятность зависит от вероятности того, что подозреваемый виновен

Какова вероятность, что случайный человек виновен?

• 0.1? 0.01? 0.001 - разные предпосылки дадут разные ответы

• Разные ответы приведут к разным решениям суда

ДАКТИЛОСКОПИЯ – НАУКА ИЛИ ПСЕВДОНАУКА

• Science and Pseudoscience in Law Enforcement: A User-

Friendly Primer Lilienfeld

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ГЕНЕТИКА

• Регрессия к среднему

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ГЕНЕТИКА

• Регрессия к среднему

• В среднем:

• у родителей, чей рост выше среднего, рождаются дети

чей рост ниже роста родителей

• у родителей, чей рост ниже среднего, рождаются дети

чей рост выше роста родителей

РЕГРЕССИЯ К СРЕДНЕМУ

• Следствие:

• Если получил за экзамен оценку выше средней оценки

на факультете, то возможно не стоит его пересдавать,

чтобы улучшить

РЕГРЕССИЯ К СРЕДНЕМУ

http://www.slideshare.net/igorkleiner5/8-finaltotal

СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ

• Какая из последовательностей более случайна?

• 1100010100101101010111001000100100100101110110010

10110010110010001011

• 01010111011100111000001111010100101011011001010010

011101110011111111001

СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ

• Какая из последовательностей более случайна?

• 1100010100101101010111001000100100100101110110010

10110010110010001011

• 01010111011100111000001111010100101011011001010010

011101110011111111001

СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ

• Какая из последовательностей более случайна?

• 1100010100101101010111001000100100100101110110010

10110010110010001011

• 01010111011100111000001111010100101011011001010010

011101110011111111001

• Для симметричной монеты эти последовательности

равновероятны

СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ

• Какая из последовательностей более случайна?

• 1100010100101101010111001000100100100101110110010

10110010110010001011

• 01010111011100111000001111010100101011011001010010

011101110011111111001

• Несложно доказать, что случайная последовательность

длины n, с большой вероятностью будет содержать

минимум ln(n) подрядидущих одинаковых элементов

СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ

• Несложно доказать, что случайная последовательность

длины n, с большой вероятностью будет содержать

минимум ln(n) подряд идущих одинаковых элементов

n Ln(n)

100 5

1000 7

10 000 10

1 000 000 12

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И НАШЕ ДЕТСТВО

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И НАШЕ ДЕТСТВО

• Сколько, в среднем, надо купить наклеек, чтобы собрать

альбом?

• Предположим, что все наклейки одинаково равновероятны и

всего n разных наклеек.

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И НАШЕ ДЕТСТВО

• Сколько, в среднем, надо купить наклеек, чтобы собрать

альбом?

• В среднем надо купить n*ln(n) наклеек!

n n*ln(n)

50 200

100 500

200 1060

500 3100

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И НАШЕ ДЕТСТВО

• Сколько, в среднем, надо купить наклеек, чтобы собрать

альбом?

• В среднем надо купить n*ln(n) наклеек!

n n*ln(n)

50 200

100 500

200 1060

500 3100

МУЗЫКАЛЬНЫЙ ВОПРОС

• На диске n песен. И проигрываются они в случайном

порядке. Возможно, одна и та же песня будет проиграна

несколько раз подряд

• Сколько, в среднем, надо ждать, пока каждая песня не будет

услышана хотя бы раз?

COUPON COLLECTOR

https://www.youtube.com/watch?v=fpGrGRf9J-U

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И СТРАНА

ПЕРЕПУТАННЫХ НОСКОВ

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И СТРАНА

ПЕРЕПУТАННЫХ НОСКОВ

• В куче n пар носков, сколько надо извлечь носков, пока не

получиться пара?

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И СТРАНА

ПЕРЕПУТАННЫХ НОСКОВ

• В куче n пар носков сколько надо извлечь носков, пока не

получиться пара? ( предположим, что все пары разные)

• Насущная проблема?

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И СТРАНА

ПЕРЕПУТАННЫХ НОСКОВ

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И СТРАНА

ПЕРЕПУТАННЫХ НОСКОВ

n

10 6

50 13

100 18

500 40

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И СТРАНА

ПЕРЕПУТАННЫХ НОСКОВ

МЕТОД «МОНТЕ КАРЛО»

МЕТОД «МОНТЕ КАРЛО»

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ПЛАНИРОВАНИЕ

СЕМЬИ

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ПЛАНИРОВАНИЕ

СЕМЬИ

• Предположим, что вероятность того, что родится мальчик,

равна вероятности рождения девочки

• Предположим, что пол разных детей в семье, не зависит

друг от друга

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ПЛАНИРОВАНИЕ

СЕМЬИ

• Различные типы семей

• тип а: заводят 2 детей (мм, мд, дм, дд)

• тип б: заводят ребенка до первого мальчика (м, дм, ддм,

• тип с: заводят детей, пока мальчиков не будет в два раза

больше и минимум два (мм,дмм, мдм,ддмммм, ….)

• В среднем, в каком типе семей будет больше мальчиков?

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ПЛАНИРОВАНИЕ

СЕМЬИ

• Природу не обманешь

• Теорема: при любой стратегии останова, пропорции детей

каждого пола будут равны

• Доказательство: Равенство Вальда

• http://www.youtube.com/watch?v=mjRcGfAEdvE

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И АНАЛИЗ

ИЗОБРАЖЕНИЙ

• Обработка изображений – бурно развивающая область

компьютерных наук

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И АНАЛИЗ

ИЗОБРАЖЕНИЙ

• Обработка изображений – бурно развивающая область компьютерных наук

• Обработка фотографий

• Распознавание лиц

• Трехмерные фотографии

• Узнавание эмоций на фото

• Ретуширование фотографий

• Поиск похожих изображений

• …

ПОИСК ПОХОЖИХ ИЗОБРАЖЕНИЙ

ПОИСК ПОХОЖИХ ИЗОБРАЖЕНИЙ

• Сложная задача

• Как определить похожесть?

• похожа текстура?

• похож сюжет изображения?

• Похожие цвета?

• Начнем с простой задачи!

ПОИСК ПОХОЖИХ ИЗОБРАЖЕНИЙ

• Начнем с простой задачи!

• Можно ли изображение разделить прямой линией на две

части, каждая из которых одноцветна?

ПОИСК ПОХОЖИХ ИЗОБРАЖЕНИЙ

• Начнем с простой задачи!

• Можно ли изображение разделить прямой линией на две

части, каждая из которых одноцветна?

ПОИСК ПОХОЖИХ ИЗОБРАЖЕНИЙ

• Начнем с простой задачи!

• Можно ли изображение разделить прямой линией на две

части, каждая из которых одноцветна?

НЕТ НЕТ ДА

РАЗДЕЛИМОСТЬ ИЗОБРАЖЕНИЯ НА ДВЕ

МОНОХРОМНЫЕ ЧАСТИ

• Входные данные: изображение размером 4000*4000

пикселей.

• Наивный алгоритм:

• Проверим каждый вариант разбиения изображения

прямой линией

РАЗДЕЛИМОСТЬ ИЗОБРАЖЕНИЯ НА ДВЕ

МОНОХРОМНЫЕ ЧАСТИ

• Наивный алгоритм:

• проверим каждый вариант разбиения изображения прямой

линией:

• Проблема:

• количество разбиений 6*4000*4000 = 96 миллионов

• в каждом разбиении надо проанализировать 16 миллионов

пикселей

РАЗДЕЛИМОСТЬ ИЗОБРАЖЕНИЯ НА ДВЕ

МОНОХРОМНЫЕ ЧАСТИ

• Наивный алгоритм:

• проверим каждый вариант разбиения изображения прямой

линией:

• Проблема:

• количество разбиений 6*4000*4000 = 96 миллионов

• в каждом разбиении надо проанализировать 16 миллионов

пикселей

• Всего 16 000000 * 96 000000 = 1500000 миллиардов операций

РАЗДЕЛИМОСТЬ ИЗОБРАЖЕНИЯ НА ДВЕ

МОНОХРОМНЫЕ ЧАСТИ

• Наивный алгоритм:

• проверим каждый вариант разбиения изображения прямой

линией:

• Всего 16 000000 * 96 000000 = 1500000 миллиардов операций

БЕДА

РАЗДЕЛИМОСТЬ ИЗОБРАЖЕНИЯ НА ДВЕ

МОНОХРОМНЫЕ ЧАСТИ

• Наивный алгоритм:

• Всего 16 000000 * 96 000000 = 1500000 миллиардов операций

• Можно ли быстрее?

• А можно не проверять все пиксели изображения, чтобы узнать

ответ?

РАЗДЕЛИМОСТЬ ИЗОБРАЖЕНИЯ НА ДВЕ

МОНОХРОМНЫЕ ПОЛУПЛОСКОСТИ

• Наивный алгоритм:

• Всего 16 000000 * 96 000000 = 1500000 миллиардов операций

• Можно ли быстрее?

• А можно не проверять все пиксели изображения, чтобы узнать ответ?

ПОЧТИ МОЖНО!

ТЕОРИЯ ВЕРОЯТНОСТЕЙ

ДВА ВИДА СЛУЧАЙНЫХ ДОКТОРОВ

• Два вида случайных докторов

• Первый: способен излечить 90% людей

• Второй: в результате лечения пациент выздоравливает с

вероятностью 0.9

• Какой врач лучше?

ДВА ВИДА СЛУЧАЙНЫХ ДОКТОРОВ

• Два вида случайных докторов

• Первый: способен излечить 90% людей

• Второй: в результате лечения пациент выздоравливает с

вероятностью 0.9

• Какой врач лучше?

• Второй лучше, так как, если он не справится – дадим ему

еще шанс.

ДВА ВИДА СЛУЧАЙНЫХ АЛГОРИТМОВ

• Два вида случайных алгоритмов

1. Возвращает правильный ответ лишь на 90% входных

данных

2. На любых входных данных возвращает правильный

ответ с вероятностью 0.9

• Какой алгоритм лучше?

ВЕРНЕМСЯ К ИЗОБРАЖЕНИЯМ

АНАЛИЗ ИЗОБРАЖЕНИЙ СЛУЧАЙНЫЙ

АЛГОРИТМ

• Вместо 1500000 миллиардов операций (количество операций

зависит от размера изображений), достаточно 200 000 операций

(не зависит от размера изображений)

• Выигрыш в 15 000 000 000 раз.

• Детали: “Property testing for image segmentation”

• ­СУБЛИНЕЙНЫЙ АЛГОРИТМ АНАЛИЗА ИЗОБРАЖЕНИЙ С

ПОМОЩЬЮ ТЕХНИКИ ТЕСТИРОВАНИЯ СВОЙСТВ

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ЛАБИРИНТЫ

• Путешественник находится в замкнутом огромном

лабиринте без выхода

• Все комнаты лабиринта выглядят одинаково

• Известно, что в лабиринте n комнат

• Цель: определить момент, когда путешественник побывал

во всех комнатах

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ЛАБИРИНТЫ

• Цель: определить момент, когда путешественник побывал

во всех комнатах

• Решение: обходим лабиринт с помощью известного

алгоритма, каждую новую комнату помечаем краской

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ЛАБИРИНТЫ

• Цель: определить момент, когда путешественник побывал

во всех комнатах

• Решение: обходим лабиринт с помощью известного

алгоритма, каждую новую комнату помечаем краской

• Проблемы: нет краски, комнаты одинаковы, помечать

нельзя

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ЛАБИРИНТЫ

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И ЛАБИРИНТЫ

СЛУЧАЙНОЕ БЛУЖДАНИЕ

• Случайное блуждание на прямой

• на каждом этапе с вероятностью 0.5 можно сделать шаг

вправо или с такой же вероятностью шаг влево

СЛУЧАЙНОЕ БЛУЖДАНИЕ

• Случайное блуждание на прямой

• на каждом этапе с вероятностью 0.5 можно сделать шаг

вправо или с такой же вероятностью шаг влево

• Какова вероятность, что два человека встретятся?

СЛУЧАЙНОЕ БЛУЖДАНИЕ НА ПРЯМОЙ

Какова вероятность влюбленным встретиться, случайно

блуждая на прямой?

Вероятность равна 1

Но среднее время до встречи равно бесконечности

СЛУЧАЙНОЕ БЛУЖДАНИЕ НА ПЛОСКОСТИ

Какова вероятность влюбленным встретиться, случайно

блуждая на плоскости?

СЛУЧАЙНОЕ БЛУЖДАНИЕ НА ПЛОСКОСТИ

Какова вероятность влюбленным встретиться, случайно

блуждая на плоскости?

Вероятность равна 1

Но среднее время до встречи равно бесконечности

СЛУЧАЙНОЕ БЛУЖДАНИЕ В ТРЕХМЕРНОМ

ПРОСТРАНСТВЕ

Какова вероятность влюбленным встретиться, случайно

блуждая в 3D?

Вероятность меньше 1

СЛУЧАЙНОЕ БЛУЖДАНИЕ В ТРЕХМЕРНОМ

ПРОСТРАНСТВЕ

ВЫВОДЫ:

• Многомерные существа очень одиноки

• Не надо случайно блуждать в поисках счастья

• рассказ «Трансцендентное одиночество»

• Random Walks (Stochastic Processes)

• Random walks on electrical networks

• Шекли «обмен разумом»

ЗА КАДРОМ

• Научный эксперимент

• Формула расчета цены опциона

• Игра в казино - мартингал

ТЕОРИЯ ВЕРОЯТНОСТЕЙ

• Теория вероятностей

• Математическая статистика

• Случайные процессы

• Дисперсионный анализ

• Регрессионный анализ

• Стохастическое программирование

• Симуляция

• Искусственный интеллект

• Анализ данных

БЛАГОДАРНОСТИ

• Клейнер Надежда

• Гольцман Александр

• Заславский Эдуард

• Бородин Захар

• Невеев Александр

• Алферов Кирилл