31
Электронная книга http://to./4595 & Электронная лекция Тема №21. Метод Байеса для организации логического вывода в условиях неопределенности. Содержание 1. ВВЕДЕНИЕ 2. ВЕРОЯТНОСТНЫЙ ПОДХОД ПРИ РАБОТЕ С НЕОПРЕДЕЛЕННОСТЬЮ. 3. ИСПОЛЬЗОВАНИЕ ТЕОРЕМЫ БАЙЕСА ДЛЯ ОПРЕДЕЛЕНИЯ ВЕРОЯТНОСТИ ГИПОТЕЗЫ ПРИ НАЛИЧИИ СВИДЕТЕЛЬСТВА. 4. КОМБИНИРОВАНИЕ СВИДЕТЕЛЬСТВ ПРИ РАБОТЕ С ПРАВИЛАМИ. 5. ПРЕОБРАЗОВАНИЕ ВЕРОЯТНОСТЕЙ ФАКТОВ И ПРАВИЛ К КОЭФФИЦИЕНТАМ УВЕРЕННОСТИ. 6. ПРИМЕРЫ ЗАДАЧ © 2010 Разработал Василенко Евгений

Lection 21

Embed Size (px)

DESCRIPTION

Theme number 21. Bayesian inference for the organization in an uncertain environment.

Citation preview

Page 1: Lection 21

Электронная книга http://to./4595 & Электронная лекция

Тема №21. Метод Байеса для организации логического

вывода в условиях неопределенности.

Содержание

1. ВВЕДЕНИЕ

2. ВЕРОЯТНОСТНЫЙ ПОДХОД ПРИ РАБОТЕ С

НЕОПРЕДЕЛЕННОСТЬЮ.

3. ИСПОЛЬЗОВАНИЕ ТЕОРЕМЫ БАЙЕСА ДЛЯ

ОПРЕДЕЛЕНИЯ ВЕРОЯТНОСТИ ГИПОТЕЗЫ ПРИ НАЛИЧИИ

СВИДЕТЕЛЬСТВА.

4. КОМБИНИРОВАНИЕ СВИДЕТЕЛЬСТВ ПРИ РАБОТЕ С

ПРАВИЛАМИ.

5. ПРЕОБРАЗОВАНИЕ ВЕРОЯТНОСТЕЙ ФАКТОВ И

ПРАВИЛ К КОЭФФИЦИЕНТАМ УВЕРЕННОСТИ.

6. ПРИМЕРЫ ЗАДАЧ

©2010 Разработал Василенко Евгений

Page 2: Lection 21

Электронная книга http://to./4595 & Электронная лекция

1. ВВЕДЕНИЕ

Томас Байес — пресвитерианский священник,

английский математик, выпускник Эдинбургского университета,

рожденный в Лондоне в 1702 году и умершего в 1761 году

создал работу «Очерки к решению доктрины шансов», которая

была позже опубликована в 1763 году, спустя два года после

смерти.

Будучи ученным в области вероятности, Томас внес в

науку следующие парадигмы:

• Теорию Байеса;

• Вероятность Байеса;

• Байесовская сеть доверия.

Также его теория дала основу для дальнейшего

уточнения формулы вероятности Байеса, например формула

«Полной вероятности».

Формула Байеса позволяет «переставить причину и

следствие»: по известному факту события вычислить

вероятность того, что оно было вызвано данной причиной.

События, отражающие действие «причин», в данном

случае обычно называют гипотезами, так как они —

предполагаемые события, повлекшие данное. Безусловную

вероятность справедливости гипотезы называют априорной

(насколько вероятна причина вообще), а условную — с учетом

факта произошедшего события — апостериорной (насколько

вероятна причина оказалась с учетом данных о событии).

©2010 Разработал Василенко Евгений

Page 3: Lection 21

Электронная книга http://to./4595 & Электронная лекция

2. ВЕРОЯТНОСТНЫЙ ПОДХОД ПРИ РАБОТЕ С

НЕОПРЕДЕЛЕННОСТЬЮ.

Вероятностная логика — это логическая система, в

которой высказываниям (суждениям, утверждениям,

предложениям), помимо истины и лжи, приписываются

"промежуточные" истинностные значения, называемые

вероятностями истинности высказываний, степенями их

правдоподобия, степенями подтверждения и так попорядку.

Поскольку понятие вероятности естественно соотносить

некоторым событиям, а наступление или не наступление

события есть факт, допускающий эмпирическую проверку

(включая мысленный эксперимент), то вероятностная логика

представляет собой уточнение индуктивной логики. Взаимные

переходы от языка высказываний к языку событий и обратно

совершаются настолько естественно, что выглядят почти

тривиальными: каждому событию сопоставляется высказывание

о его наступлении, а высказыванию сопоставляется событие,

состоящее в том, что оно оказалось истинным. Специфика

вероятностной логики состоит в принципиальной

неустранимости неполной достоверности ("относительной

истинности") посылок и выводов, присущей всякому

индуктивному познанию.

Рассмотрим три логических формулы в логике вы

высказываний: А , А E В , В. Представим следующие

вертикальные векторы

1 2 3 4

©2010 Разработал Василенко Евгений

Page 4: Lection 21

Электронная книга http://to./4595 & Электронная лекция

где 1 — мир истинности А, А E В, В,

2 — мир истинности А и лжи А E В, В,

3 — мир лжи А и истинности А E В, В,

4 — мир лжи А, В и истинности А E В.

А именно, 1 и 0 обозначают истину и ложь высказывания А в

первой строке вертикальной векторов, А E В во второй строке

и Вв третьей строке. Эти три логические формулы подобраны

так, что возможны только четыре указанных выше случая (когда

нет противоречия). Это так называемые возможные миры (миры

с возможностью интерпретации). Все другие миры — например

А, А E В истина, В ложь — это миры, со держащие противоречие.

Если выбрать один из возможных миров, то образуется

традиционная двузначная логика. В вероятностной логике

рассматриваются состояния, когда одновременно с некоторой

вероятностью могут существовать несколько возможных миров.

Например, пусть вероятность, с которой возможна

интерпретация в мире 1, равна 0,4, а вероятности

интерпретации в мирах 2,3,4 соответственно равны 0,3, 0,2, 0,1

(сумма вероятностей возможных миров равна 1), тогда

представим следующим образом вектор вероятностей

возможных миров

©2010 Разработал Василенко Евгений

Page 5: Lection 21

Электронная книга http://to./4595 & Электронная лекция

И наоборот, если существует группа логических формул, каждой

из которых приписана некоторая вероятность, то эту группу

можно считать упорядочен ной (непротиворечивой), только

когда возможно вероятностное существование соответствующих

возможных миров. Если построить матрицу М , элементами

которой служат вертикальные векторы, представляющие воз-

можные миры, то с помощью матричной операции МР = V можно

вычислить вероятности выбора каждой логической формулы. В

данном примере

А именно, эти вероятностные возможные миры имеют состояние

«истина» с вероятностью 0,7 ( А ), 0,7 ,( А E В ) и 0,6 ( В ).

Пусть задана вероятность А р ( А ) и

вероятность А E В р ( А E В ), тогда вероятность В р ( В ) должна

находиться в диапазоне

©2010 Разработал Василенко Евгений

Page 6: Lection 21

Электронная книга http://to./4595 & Электронная лекция

Таким образом, можно определить логический вывод (с

вероятностью).

Различие нечеткой и вероятностной логики.Критерий

оценки

Нечеткая логика Вероятностная логика

Значения

истинности

Интервал [0,1]

Истинное значение –

субъективная величина.

Миры истинности:

существование различных

исходов событий с какой-то

степенью вероятностью.

Вероятность определяется в

статистическом смысле.

Основные

логические

формулы

Логические формулы

такие же, как и в четкой

(конъюнкция (выбор

минимума из

истинностных значений

предпосылок),

дизъюнкция (выбор

максимума), отрицание и

др.), но принимают

значения истины на

интервале [0,1].

Всем логическим формулам

приписывается вероятность, с

которой эта формула будет

работать так а не иначе.

Логическая формула может

вести себя по-разному с какой-

то вероятностью.

Правила

вывода

Верны всегда. Но

интерпретация

полученного результата

субъективна.

Правила вывода верны с

какой-то степенью

вероятности, которая является

статистической величиной.

Результат зависит от того, как

сработает правило в

©2010 Разработал Василенко Евгений

Page 7: Lection 21

Электронная книга http://to./4595 & Электронная лекция

конкретной ситуации.

РасширяемостьВсе знания прописаны

жестко.

Возможность добавления

новых знаний отсутствует.

Все знания прописаны жестко.

Возможность добавления

новых знаний отсутствует.

Преимущества и недостатки логик.Достоинства Недостатки

Нечеткая Истинное значение –

субъективная величина.

Интерпретация

полученного результата

субъективна.

Логические формулы

такие же, как и в четкой.

Все знания прописаны

жестко. Возможность

добавления новых знаний

отсутствует.

Вероятностная Логическая формула

может вести себя по-

разному с какой-то

вероятностью.

Правила вывода верны с

какой-то степенью

вероятности, которая

является статистической

величиной. Все знания

прописаны жестко.

Возможность добавления

новых знаний

отсутствует.

©2010 Разработал Василенко Евгений

Page 8: Lection 21

Электронная книга http://to./4595 & Электронная лекция

3. ИСПОЛЬЗОВАНИЕ ТЕОРЕМЫ БАЙЕСА ДЛЯ

ОПРЕДЕЛЕНИЯ ВЕРОЯТНОСТИ ГИПОТЕЗЫ ПРИ НАЛИЧИИ

СВИДЕТЕЛЬСТВА.

Так называемый «Байесовый вывод» — это

статистический вывод, в котором свидетельство и/или

наблюдение используются, чтобы обновить или вновь вывести

вероятность того, что гипотеза может быть верной; название

байесовский происходит от частого использования в процессе

вывода теоремы Байеса.

Байесовский вывод использует аспекты научного

метода, который вовлекает сбор свидетельств, предназначенных

для того, чтобы поддерживать или не поддерживать данную

гипотезу. Поскольку свидетельства накапливаются, степень

веры в гипотезу должна измениться. С достаточным количеством

свидетельств, она должна стать либо очень высокой, либо очень

низкой.

Байесовский вывод использует числовую оценку степени

веры в гипотезу до получения свидетельства, чтобы вычислить

числовую оценку степени веры в гипотезу после того, как

свидетельство было получено (этот процесс повторяется, когда

получено дополнительное свидетельство). В индукционном

процессе байесовский вывод обычно опирается на степени

веры, или субъективные вероятности, и не обязательно

утверждает, что обеспечен объективный метод индукции. Тем не

менее, некоторые байесовские статистики полагают, что

вероятности могут иметь объективное значение, и поэтому

©2010 Разработал Василенко Евгений

Page 9: Lection 21

Электронная книга http://to./4595 & Электронная лекция

байесовский вывод может обеспечить объективный метод

индукции.

©2010 Разработал Василенко Евгений

Иллюстрация 1: Пример типичной Байесовой сети

Page 10: Lection 21

Электронная книга http://to./4595 & Электронная лекция

4. КОМБИНИРОВАНИЕ СВИДЕТЕЛЬСТВ ПРИ РАБОТЕ

С ПРАВИЛАМИ.

Правило Байеса может применяться для получения

ответов на вероятностные запросы, в которых учтено условие,

составляющее одно из свидетельств, например неподвижная

шея. В частности, было показано, что вероятностная

информация часто доступна в форме Ρ (effect | cause) (где effect

— результат, a cause— причина). А что произойдет, если

свидетельств два или больше? Например, какой вывод может

сделать зубной врач, если его стальной инструмент захватил

больной зуб пациента, причинив еще большие страдания? Если

известно полное совместное распределение, можно сразу же

прочитать ответ:

Но нам уже известно, что такой подход не масштабируется на

большее количество переменных.

Тогда можно попытаться воспользоваться правилом Байеса для

переформулировки этой задачи:

Для того чтобы можно было найти ответ запрос в такой

формулировке, необходимо знать условные вероятности

конъюнкции toothache | catch для каждого значения Cavity.

Такая задача может быть осуществима, если речь идет только о

двух переменных свидетельства, но этот подход снова

становится источником затруднений при его применении в

©2010 Разработал Василенко Евгений

Page 11: Lection 21

Электронная книга http://to./4595 & Электронная лекция

больших масштабах. Если имеется n возможных переменных

свидетельства (рентгеновское обследование, диета, гигиена

полости рта и т.д.), то количество возможных комбинаций

наблюдаемых значений, для которых необходимо будет знать

условные вероятности, составит . С таким же успехом можно

было бы снова вернуться к использованию полного совместного

распределения. Именно по этой причине исследователи после

первых попыток отказались от применения теории вероятностей

и обратились к приближенным методам комбинирования

свидетельств, в которых требуется использовать меньше чисел

для получения ответов, хотя сами эти ответы не всегда бывают

правильными.

Вместо того чтобы следовать по такому пути, мы должны

найти некоторые дополнительные утверждения о

рассматриваемой проблемной области, которые позволят

упростить применяемые выражения. Понятие независимости,

приведенное в разделе 13.5, дает ключ к этому решению, но

требует уточнения. Было бы прекрасно, если бы переменные

Toothache и Catch были независимыми, но они таковыми не

являются: если зубной врач захватывает зуб своим

инструментом, то он делает это, вероятно, потому, что в этом

зубе есть дупло, а это действие, вероятно, в свою очередь

вызывает боль. Но эти переменные независимы, если речь идет

о наличии или отсутствии дупла. Причиной каждого из

соответствующих действий было дупло, но ни одно из них не

оказывает непосредственного влияния на другое: зубная боль

©2010 Разработал Василенко Евгений

Page 12: Lection 21

Электронная книга http://to./4595 & Электронная лекция

зависит от состояния нервов в зубе, а точность наложения

инструмента зависит от навыков зубного врача, к которым

зубная боль не имеет отношения. Математически это свойство

записывается следующим образом:

(13.13)

В данном уравнении выражена условная независимость

переменных toothache и catch, если дана вероятность Cavity.

Соответствующее выражение можно вставить в уравнение 13.12

для определения вероятности наличия дупла:

Теперь требования к наличию информации становятся такими

же, как и при вероятностном выводе с использованием каждого

свидетельства отдельно: необходимо знать априорную

вероятность Ρ (Cavi ty) для переменной запроса и условную

вероятность каждого результата, если дана его причина.

Общее определение условной независимости двух переменных

X и Y, если дана третья переменная Z, выражается следующей

формулой:

Например, в проблемной области стоматологии представляется

вполне резонным применение утверждения об условной

независимости переменных Toothache и Catch, если дана

вероятность Cavi ty.

(13.14)

©2010 Разработал Василенко Евгений

Page 13: Lection 21

Электронная книга http://to./4595 & Электронная лекция

Обратите внимание на то, что это утверждение немного строже

по сравнению с уравнением 13.13, в котором сформулировано

утверждение о независимости только для конкретных значений

Toothache и Catch. А при использовании свойства абсолютной

независимости, сформулированного в уравнении 13.8, могут

также применяться следующие эквивалентные формы:

В разделе 13.5 показано, что утверждения с описанием свойств

абсолютной независимости позволяют выполнять декомпозицию

полного совместного распределения на гораздо более мелкие

распределения. Как оказалось, аналогичную декомпозицию

позволяют выполнять утверждения об условной независимости.

Например, с помощью утверждения, приведенного в уравнении

13.14, декомпозицию можно вывести следующим образом:

Таким образом, первоначальная крупная таблица

декомпонована на три меньшие таблицы. В исходной таблице

было семь независимых чисел ( , поскольку эти числа должны

в сумме составлять 1). Меньшие таблицы содержат пять

независимых чисел для каждого распределения условных

вероятностей и для распределения априорной вероятности

Cavi ty). Такое достижение на первый взгляд может показаться

не очень значительным, но дело в том, что для η симптомов,

являющихся условно независимыми, если дана вероятность

©2010 Разработал Василенко Евгений

Page 14: Lection 21

Электронная книга http://to./4595 & Электронная лекция

Cavity, размер представления растет как 0{п), а не . Таким

образом, z утверждения об условной независимости могут

обеспечивать масштабирование вероятностных систем; более

того, такие утверждения могут быть подкреплены данными

намного проще по сравнению с утверждениями об абсолютной

независимости. С концептуальной точки зрения переменная

Cavity разделяет переменные Toothache и Catch, поскольку

наличие дупла является прямой причиной и зубной боли, и

наложения инструмента на зуб. Разработка методов

декомпозиции крупных вероятностных областей определения на

слабо связанные подмножества с помощью свойства условной

независимости стало одним из наиболее важных достижений в

новейшей истории искусственного интеллекта.

Приведенный выше пример из области стоматологии может

служить проявлением часто встречающейся ситуации, в которой

одна причина непосредственно влияет на целый ряд

результатов, причем все эти результаты являются условно

независимыми, если дана эта причина. Полное совместное

распределение может быть записано следующим образом:

Указанное распределение вероятностей называется наивной

байесовской моделью. Такая модель называется "наивной",

поскольку часто используется (как упрощающее допущение) в

тех случаях, когда переменные "результата" не являются

условно независимыми, если дана переменная причины.

©2010 Разработал Василенко Евгений

Page 15: Lection 21

Электронная книга http://to./4595 & Электронная лекция

(Наивную байесовскую модель иногда называют байесовским

классификатором, а это не совсем корректное применение

термина побудило настоящих специалистов в области

байесовских моделей называть ее не наивной, а идиотской

байесовской моделью.) На практике наивные байесовские

системы могут действовать удивительно успешно, даже если

предположение о независимости не является истинным. В главе

20 описаны методы изучения наивных байесовских

распределений поданным наблюдений.

©2010 Разработал Василенко Евгений

Page 16: Lection 21

Электронная книга http://to./4595 & Электронная лекция

5. ПРЕОБРАЗОВАНИЕ ВЕРОЯТНОСТЕЙ ФАКТОВ И

ПРАВИЛ К КОЭФФИЦИЕНТАМ УВЕРЕННОСТИ.

В идеальном мире можно вычислить вероятность P(di|

E), где di — i-я диагностическая категория, а £ представляет все

необходимые дополнительные свидетельства или

фундаментальные знания, используя только вероятности P(di |

Sj), где Sj является j-м клиническим наблюдением (симптомом).

Мы уже имели возможность убедиться в том, что правило Байеса

позволяет выполнить такие вычисления только в том случае,

если, во-первых, доступны все значения P(sj | di), и, во-вторых,

правдоподобно предположение о взаимной независимости

симптомов.

В системе MYCIN применен альтернативный подход на основе

правил влияния, которые следующим образом связывают

имеющиеся данные (свидетельства) с гипотезой решения:

ЕСЛИ

пациент имеет показания и симптомы s1 ^ ...^ sk и имеют место

определенные фоновые условия t1 ^ ... ^ fm ,

ТО

можно с уверенностью т заключить, что пациент страдает

заболеванием di.

Коэффициент-уверенности t принимает значения в диапазоне [-

1,+ 1]. Если т = +1, то это означает, что при соблюдении всех

оговоренных условий составитель правила абсолютно уверен в

©2010 Разработал Василенко Евгений

Page 17: Lection 21

Электронная книга http://to./4595 & Электронная лекция

правильности заключения di, а если т = -1, то значит, что при

соблюдении всех оговоренных условий существует абсолютная

уверенность в ошибочности этого заключения. Отличные от +1

положительные значения коэффициента указывают на степень

уверенности в правильности заключения di, а отрицательные

значения — на степень уверенности в его ошибочности.

Основная идея состоит в том, чтобы с помощью порождающих

правил такого вида попытаться заменить вычисление P(di | s1 ^

... ^ sk) приближенной оценкой и таким образом сымитировать

процесс принятия решения экспертом-человеком. Как было

показано в главе 3, результаты применения правил такого вида

связываются с коэффициентом уверенности окончательного

заключения с помощью CF(a) — коэффициент уверенности в

достоверности значения параметра а, а дополнительные

условия t1 ^ ... ^ tm представляют фоновые знания, которые

ограничивают применение конкретного правила. Чаще всего

оказывается, что эти условия могут быть интерпретированы

значениями "истина" или "ложь", т.е. соответствующие

коэффициенты принимают значение +1 или -1. Таким образом,

отличные от единицы значения коэффициентов характеризуют

только симптомы s1, ... , sk. Роль фоновых знаний состоит в том,

чтобы разрешить или запретить применение правила в данном

конкретном случае. Пусть, например, имеется диагностическое

правило, связывающее появление болей в брюшной полости с

возможной беременностью. Применение этого правила

©2010 Разработал Василенко Евгений

Page 18: Lection 21

Электронная книга http://to./4595 & Электронная лекция

блокируется фоновым знанием, что оно справедливо только по

отношению к пациентам-женщинам.

Бучанан и Шортлифф утверждают, что, строго говоря,

применение правила Байеса в любом случае не позволяет

получить точные значения, поскольку используемые условные

вероятности субъективны [Buchanan and Shortliffe, 1984,

Chapter 11]. Как мы уже видели, это основной аргумент против

применения вероятностного подхода. Однако такая

аргументация предполагает объективистскую интерпретацию

понятия вероятности, т.е. предполагается, что "правильные"

значения все же существуют, но мы не можем их получить, а

раз так, то и правило Байеса нельзя использовать. Этот

аргумент имеет явно схоластический оттенок, поскольку любая

экспертиза, проводимая инженером по знаниям, совершенно

очевидно сводится к представлению тех знаний о предметной

области, которыми обладает человек-эксперт (эти знания,

конечно же, являются субъективными), а не к воссозданию

абсолютно адекватной модели мира. С точки зрения теории

представляется, что целесообразнее использовать

математически корректный формализм к неточным данным, чем

формализм, который математически некорректен, к тем же

неточным данным.

Перл обратил внимание на важное практическое достоинство

подхода, основанного на правилах [Pearl, 1988, р.5].

Вычисление коэффициентов уверенности заключения имеет

явно выраженный модульный характер, поскольку не нужно

©2010 Разработал Василенко Евгений

Page 19: Lection 21

Электронная книга http://to./4595 & Электронная лекция

принимать во внимание никакой иной информации, кроме той,

что имеется в данном правиле. При этом не имеет никакого

значения, как именно получены коэффициенты уверенности,

характеризующие исходные данные.

При построении экспертных систем часто используется эта

особенность. Полагается, что для всех правил, имеющих дело с

определенным параметром, предпосылки каждого правила

логически независимы. Анализируя систему MYCIN, Шортлифф

посоветовал сгруппировать все зависимые признаки в единое

правило, а не распределять их по множеству правил (см.,

например, [Buchanan and Shortliffe, 1984, p. 229]).

Пусть, например, существует зависимость между признаками Е1

и E2- Шортлифф рекомендует сгруппировать их в единое

правило если E1 и Е2, то приходим к заключению Н с

уверенностью т, а не распределять по двум правилам если E1, то

приходим к заключению Н с уверенностью t, если Е2, то

приходим к заключению Н с уверенностью t.

В основе этой рекомендации лежит одно из следствий теории

вероятностей, гласящее, что Р(Н | E1, Е2) не может быть простой

функцией от Р(Н | Е1) и Р(Н | Е2).

Выражения для условной вероятности не могут в этом смысле

рассматриваться как модульные. Выражение

P(B | A) = t

©2010 Разработал Василенко Евгений

Page 20: Lection 21

Электронная книга http://to./4595 & Электронная лекция

не позволяет заключить, что Р(В) = t при наличии А, если

только А не является единственным известным признаком. Если

кроме А мы располагаем еще и знанием Е, то нужно сначала

вычислить Р(В | А, Е), а уже потом можно будет что-нибудь

сказать и о значении Р(В). Такая чувствительность к контексту

может стать основой очень мощного механизма логического

вывода, но, как уже не раз подчеркивалось, за это придется

платить существенным повышением сложности вычислений.

Коэффициенты уверенности и условные

вероятности

Адаме показал, что если используется простая вероятностная

модель на основе правила Байеса, то в системе MYCIN

коэффициенты уверенности гипотез не соответствуют

вероятностям гипотез при заданных признаках [Adams, 1976].

На первый взгляд, если коэффициенты уверенности

используются только для упорядочения альтернативных

гипотез, это не очень страшно. Но Адаме также показал, что

возможна ситуация, когда при использовании коэффициентов

уверенности две гипотезы будут ранжированы в обратном

порядке по отношению к соответствующим вероятностям.

Рассмотрим этот вопрос подробнее.

Обозначим через Р(h) субъективное, т.е. составленное на

основе заключения эксперта, значение вероятности того, что

гипотеза h справедлива, т.е. значение Р(Н) отражает степень

уверенности эксперта в справедливости гипотезы h. Усложним

положение дел и добавим новый признак е в пользу этой

©2010 Разработал Василенко Евгений

Page 21: Lection 21

Электронная книга http://to./4595 & Электронная лекция

гипотезы, такой что P(h | е) > Р(h). Степень доверия эксперта к

справедливости гипотезы увеличится, и это увеличение

выразится отношением

MB(h,e)= [P(h|e)-P(h)]/[1-P(h)]

где MB означает относительную меру доверия.

Если же признак е свидетельствует против гипотезы h, т.е. P(h |

е) < P(h), то увеличится мера недоверия эксперта к

справедливости этой гипотезы. Меру недоверия MD можно

выразить следующим отношением:

MD(h, e) =[P(h)-P(h|e) ] / P(h)]

Адаме обратил внимание на то, что уровни доверия к одной и

той же гипотезе с учетом разных дополнительных признаков не

могут быть определены независимо. Если некоторый признак

является абсолютным диагностическим индикатором

конкретного заболевания, т.е. если все пациенты с симптомом

s1 страдают заболеванием dj, то никакие другие признаки уже

не могут изменить диагноз, т.е. уровень доверия к выдвинутой

гипотезе. Другими словами, если существует пара признаков s1

и s2 и

P(di|s1)=P(di|S1^S2)=1,

то

P(di|s2)= P(dl).

Адаме также критически отнесся к объединению (конъюнкции)

©2010 Разработал Василенко Евгений

Page 22: Lection 21

Электронная книга http://to./4595 & Электронная лекция

гипотез. Модель, положенная в основу MYCIN, предполагает, что

уровень доверия к сочетанию гипотез d1 ^ d2 должен

соответствовать наименьшему из уровней доверия отдельных

гипотез, а уровень недоверия — наибольшему из уровней

недоверия отдельных гипотез. Предположим, что гипотезы d1 и

d2 не только не независимы, но и взаимно исключают друг

друга. Тогда P(d1 ^ d2 | е) = 0 при наличии любого признака е и

независимо от степени доверия или недоверия к d1 или d2

Бучанан и Шортлифф определили коэффициент уверенности

как некий артефакт, который позволяет численно оценить

комбинацию уровней доверия или недоверия к гипотезам

[Buchanan and Shortliffe, 1984, p. 249]. Он представляет собой

разницу между мерой доверия и недоверия:

CF(h, еа ^ ef ) = MB(h, ef) - MD(h, ea),

где ef— признак, свидетельствующий в пользу гипотезы h, a ea

— признак, свидетельствующий против гипотезы h. Однако

полученное таким образом значение отнюдь не эквивалентно

условной вероятности существования гипотезы h при условии еа

^ ef, которое следует из правила Байеса:

P(h|ea^ef)=[P(ea^ef | h)P(h)]/[P(ea^ef )]

Таким образом, хотя степень доверия, связанная с

определенным правилом, и может быть соотнесена с

©2010 Разработал Василенко Евгений

Page 23: Lection 21

Электронная книга http://to./4595 & Электронная лекция

субъективной оценкой вероятности, коэффициент уверенности

является комбинированной оценкой. Его основное назначение

состоит в следующем:

1управлять ходом выполнения программы при формировании

суждений;

2

управлять процессом поиска цели в пространстве

состояний: если коэффициент уверенности гипотезы

оказывается в диапазоне [+0.2, -0.2], то поиск

блокируется;

3ранжировать набор гипотез после обработки всех

признаков.Адаме, однако, показал, что ранжирование гипотез на основе

коэффициентов уверенности может дать результат,

противоположный тому, который будет получен при

использовании вероятностных методов. Он продемонстрировал

это на следующем примере.

Положим, что d1u d2 — это две гипотезы, а е — признак,

свидетельствующий как в пользу одной гипотезы, так и в пользу

другой. Пусть между априорными вероятностями существует

отношение P(d1) > P(d2) и P(d\ \ е) > P(d2 | е). Другими

словами, субъективная вероятность справедливости гипотезы d\

больше, чем гипотезы d2, причем это соотношение сохраняется

и после того, как во внимание принимается дополнительный

признак. Адаме показал, что при этих условиях возможно

обратное соотношение CF(d1, е) < CF(d2, е) между

коэффициентами уверенности гипотез.

©2010 Разработал Василенко Евгений

Page 24: Lection 21

Электронная книга http://to./4595 & Электронная лекция

Предположим, что вероятности имеют следующие значения:

P(d1) = 0.8,

P(d2) = 0.2,

P(d1|e) = 0.9,

P(d2| e) = 0.8.

Тогда повышение доверия к d1 будет равно (0.9 - 0.8) / 0.2 =

0.5, а повышение доверия к

d2 — (0.8 - 0.2) / 0.8 = 0.75.

Отсюда следует, что CF(d1| e) < CF(d2, е), несмотря на то, что и

P(d1 | e) > P(d2| е).

Адаме назвал это явление "нежелательным свойством"

коэффициентов доверия. Избежать такой ситуации можно, если

все априорные вероятности будут равны. Несложно показать,

что эффект в приведенном выше примере явился следствием

того, что признак е больше свидетельствовал в пользу гипотезы

d2, чем в пользу d1, именно из-за более высокой априорной

вероятности последней. Однако приравнивание априорных

вероятностей явно не согласуется со стилем мышления тех, кто

ставит диагноз, поскольку существует достаточно большое

отличие в частоте сочетаний разных болезней с одинаковыми

симптомами, следовательно, эксперты будут присваивать им

совершенно разные значения субъективных вероятностей.

©2010 Разработал Василенко Евгений

Page 25: Lection 21

Электронная книга http://to./4595 & Электронная лекция

Последовательное применение правил в системе MYCIN также

связано с существованием определенных теоретических

проблем. Используемая при этом функция комбинирования

основана на предположении, что если признак е влияет на

некоторую промежуточную гипотезу h с вероятностью P(h | е), а

гипотеза h входит в окончательный диагноз d с вероятностью

P(d | h), то

P(d|e) = P(d|h)P(h|e).

Таким образом, создается впечатление, что транзитивное

отношение в последовательности правил вывода суждений

справедливо на первом шаге, но не справедливо в общем

случае. Для того чтобы существовала связь между правилами,

популяции, связанные с этими категориями, должны быть

вложены примерно так, как на рис. 9.1.

Иллюстрация 2: Популяции, позволяющие использовать P(d | е; = P(d| h)P(h| z)

Адаме пришел к выводу, что успех практического применения

системы MYCIN и других подобных систем объясняется тем, что

©2010 Разработал Василенко Евгений

Page 26: Lection 21

Электронная книга http://to./4595 & Электронная лекция

в них используются довольно короткие последовательности

комбинирования правил, а рассматриваемые гипотезы довольно

просты.

Другое критическое замечание относительно MYCIN было

высказано Горвицем и Гекерманом и касается использования

коэффициентов уверенности в качестве меры изменения

доверия, в то время как в действительности они

устанавливаются экспертами в качестве степени абсолютного

доверия [Horvitz and Heckerman, 1986]. Связывая

коэффициенты доверия с правилами, эксперт отвечает на

вопрос: "Насколько вы уверены в правдоподобности того или

иного заключения?" При применении в MYCIN функций

комбинирования дополнительных признаков эти коэффициенты

становятся мерой обновления степени доверия, что приводит к

несовместимости этих значений с теоремой Байеса.

©2010 Разработал Василенко Евгений

Page 27: Lection 21

Электронная книга http://to./4595 & Электронная лекция

6. ПРИМЕРЫ ЗАДАЧ

К второму разделу:

Пример: действие сложить 1 + 1. В вероятностной

логике есть вероятность, что сложение будет означать

арифметическую операцию, а не иметь другой смысл (родитель

+ родитель равно ребенок). Вероятность арифметической

операции с исходом 2 равна 0,99, а отображения связи

родитель+родитель=ребенок равна 0,01, но это статистическая

величина, не зависящая от какого-либо субъективного мнения.

При сложении 1+1 в нечеткой логике значениям 1 и 1 будет

присвоены субъективные истинностные значения. Формула

всегда работает однозначно, но результат тоже имеет

истинностное значение на интервале [0 1].

©2010 Разработал Василенко Евгений

Page 28: Lection 21

Электронная книга http://to./4595 & Электронная лекция

К третьему разделу:

©2010 Разработал Василенко Евгений

Иллюстрация 3: Из какой вазы печенье?

Page 29: Lection 21

Электронная книга http://to./4595 & Электронная лекция

К четвертому разделу:

Предположим, что может быть две причины, по которым

трава может стать мокрой (GRASS WET): сработала

дождевальная установка, либо прошел дождь. Также

предположим, что дождь влияет на работу дождевальной

машины (во время дождя установка не включается). Тогда

ситуация может быть смоделирована проиллюстрированной

Байесовской сетью. Все три переменные могут принимать два

возможных значения: T (правда — true) и F (ложь — false).

Совместная вероятность функции:

P(G,S,R) = P(G | S,R)P(S | R)P(R)

где имена трех переменных означают G = Трава мокрая

(Grass wet), S = Дождевальная установка (Sprinkler), и R =

Дождь (Rain).

Модель может ответить на такие вопросы как «Какова

вероятность того, что прошел дождь, если трава мокрая?»

используя формулу условной вероятности и суммируя

©2010 Разработал Василенко Евгений

Иллюстрация 4: Простая Байесовая сеть

Page 30: Lection 21

Электронная книга http://to./4595 & Электронная лекция

переменные:

В такой задаче, как медицинская диагностика, часто

известны условные вероятности причинных связей и требуется

определить диагноз. Врач знает, что такое заболевание, как

менингит, очень часто вызывает у пациента симптом,

характеризующийся снижением подвижности шеи;

предположим, что этот симптом наблюдается в 50% случаев.

Кроме того, врачу известны некоторые безусловные факты:

априорная вероятность того, что некоторый пациент имеет

менингит, равна 1/50 000, а априорная вероятность того, что

некоторый пациент имеет неподвижную шею, равна 1/20.

Предположив, что s — высказывание, согласно которому

пациент имеет неподвижную шею, а т — высказывание, что

пациент имеет менингит, получим следующее:

Итак, следует предполагать, что 1 из 500 0 пациентов с

неподвижной шеей имеет менингит. Следует отметить, что даже

если неподвижная шея является весьма надежным показателем

наличия менингита (с вероятностью 0,5), сама вероятность

наличия менингита у пациента остается низкой. Это связано с

©2010 Разработал Василенко Евгений

Page 31: Lection 21

Электронная книга http://to./4595 & Электронная лекция

тем, что априорная вероятность наличия симптома неподвижной

шеи намного выше по сравнению с вероятностью менингита.

Вычислив апостериорную вероятность для каждого значения

переменной запроса, а затем нормализовав результаты. Тот же

процесс можно применить при использовании правила Байеса.

Таким образом, мы имеем:

Итак, чтобы воспользоваться этим подходом, необходимо вместо

Ρ (s) вычислить значение . Осуществление такого подхода

требует определенных затрат; иногда эти затраты не столь

велики, а иногда становятся довольно значительными. Общая

форма правила Байеса с нормализацией является таковой:

где а— константа нормализации, необходимая для того, чтобы

записи в распределении P (Y|X) в сумме составляли 1.

К пятому разделу:

-/-

©2010 Разработал Василенко Евгений