18
Бодякин В.И. к.ф.-м.н. с.н.с. Институт проблем управления РАН им. В.А. Трапезникова, Москва E-mail: body @ ipu . ru , http://www.informograd . narod . ru , служ.тел.:334-92-39 (Априорно неопределенной предметной области)

Бодякин В.И. к.ф.-м.н. с.н.с. Институт проблем управления РАН им. В.А. Трапезникова, Москва

Embed Size (px)

DESCRIPTION

АВТОСТРУКТУРИЗАЦИЯ НЕПРЕРЫВНОГО ТЕКСТОВОГО ПОТОКА. (Априорно неопределенной предметной области). Бодякин В.И. к.ф.-м.н. с.н.с. Институт проблем управления РАН им. В.А. Трапезникова, Москва E-mail: body @ ipu . ru , http://www. informograd . narod . ru , служ.тел.:334-92-39. - PowerPoint PPT Presentation

Citation preview

Page 1: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Бодякин В.И. к.ф.-м.н. с.н.с.Институт проблем управления РАН

им. В.А. Трапезникова, Москва

E-mail: [email protected] , http://www.informograd.

narod.ru , служ.тел.:334-92-39

(Априорно неопределенной предметной области)

Page 2: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

010101010101001001001110110101010101010101010101010100101010101010101010101010000010101010101001010101010101010101001010100101010101010101010100101010101010101001010100101010101010101010010101010100100110101010101010101010101010101010101010101010101010100110010101010101010101010101010101010100101010101010101010101010010101010101010100110101010101010101001010

ПОЧЕМУ ВСЕ ОРГАНИЗМЫ "ЕДИНОДУШНЫ" В КЛАСТЕРИЗАЦИИ ОКРУЖАЮЩЕГО НАС

МИРА НА ОТДЕЛЬНЫЕ ОБРАЗЫ ?

…0100101…

…0100101…

…1010010… …0100101…

Предметная область

..1010010…

2

Page 3: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Традиционный способ структуризации в системах ИИ

t

Информационный канал

010101010... 01010101..

ПО aj ak

ai

01001 – apll 001111 …

00111001 - . 101010 -

Прог-рамма

ИИ

Програм-мист систем ИИ

Предметная область

3

Page 4: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Предметная область (ПО) – причинно-связанная совокупность физических процессов.

Процесс – независимое от времени и пространства детерминированное изменение некоторого физического параметра во времени.

Любой процесс может быть преобразован в текстовую форму.

а) б) в) г)

b

tn a

Z ...

W

t1 t

A * * * * * * *

<kzkkzkb>

текстовая форма t2

ln

Wn

многомерный физический процесс <-> текстовая форма

4

Page 5: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Задача:Задача: в в непрерывном потоке ТФ непрерывном потоке ТФ необходимо выделить образы, необходимо выделить образы,

соответствующие процессам соответствующие процессам любойлюбой ПОПО

МАКРИСРИСМАКДУБЛЕН

t01 t02 t03

ПО ИС

АКРИСМКД УБЛЕНД …

Цель: Минимальный словарь ИС (гомоморфен

процессам ПО)

Метод:Метод: построение в ИС множества построение в ИС множества различных словарей и выбор различных словарей и выбор минимальногоминимального (R (Rii))

Инструментарий:Инструментарий: нейросемантические нейросемантические

структуры структуры

R1МАКРИС

ЛЕН ДУБ

5

Page 6: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Демонстрационный примерДемонстрационный пример(четыре равновероятных процесса формируют непрерывный (четыре равновероятных процесса формируют непрерывный

поток ТФ)поток ТФ)

СМАКРИСРИСМАКДУБЛЕН

ИС

____

"Генетич. программ

а"Необходимо построить словарь в N образов, полностью покрывающий ТФ. Примем что:Энергетические затраты на обработку одного образа в ИС равна 1Е-.Время обработки символа и образа один такт Т, Энергетические затраты на хранение одного образа в памяти 1/24 Е-.Энергетика каждого прогнозируемого ИС символа равна 1Е+, Усредненный на 12 тактов энергетический баланс ИС = -N(обработка) -1/2N(хранение) + (12-N)(прогнозирование) = (12 - 5/2N)*E

ПО

ДУБ

ЛЕН

РИС

МАК

aj

ai ak

Текстовой поток

Закрашенный поток

6

Page 7: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Результаты эксперимента Первая структуризация словаря ИС

Форма словаря: (наибольший размер образа один символ): <М><А><К><Р><И><С><Л><Е><Н><Д><У><Б>, R(ИС)=12R*(0,5Е-/R) = 6E-, прогнозирование (Т) = 0Т (т.к. у образа только один

символ), затраты энергии на распознавание = 12E- контролирование потенциальной энергии ТФ = 0E+. Итог: для односимвольного словаря усредненный

энергетический баланс = 18E- .

Усредненный энергетический баланс ИС назовем эволюционным

потенциалом ИС

7

Page 8: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Вторая структуризация словаря

ИС

а) Минимальная форма словаря: <МА><К><РИ><С><ЛЕ><Н><ДУ><Б>:

R(ИС)=8R =4Е-, прогнозирование = 0,5Т (на образ), затраты энергии на распознавание = 8E-, контролирование потенциальной энергии ТФ = 4E+. Итог а) 4Е- + (0,5Т * 8(образов на ТФ=12) = 4E+) + 8E- = 8E- .

б) Максимальная форма (без полного пересечения): <МА><КЛ><КР><КД><КМ> <ЛЕ>…<БД>:

R(ИС)= 20R=10Е-, прогнозирование = 0,2Т (на образ), затраты энергии на распознавание = 20E-, контролирование потенциальной энергии ТФ = 4E+. Итог б) 10Е- + (0,2Т * 20(образов на ТФ=12) = 4E+) + 20E- =

26E- .

Итоговый лучший эволюционный потенциал = 8E- .

(наибольший размер образа два символа):

8

Page 9: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Третья структуризация словаря

(наибольший размер образа в три символа).

а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>: R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ), затраты энергии на распознавание = 4E-, контролирование потенциальной энергии ТФ = 8E+. Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+.

б) Максимальная форма (без дублирования, т.е. без полного пересечения): <АКР><ИСР><ИСМ><АКД> <УБЛ><ЕНД> … <АКМ>:

R(ИС)= 36R=18Е-, прогнозирование (Т) = +4E, затраты энергии на распознавание = 36E-, контролирование потенциальной энергии ТФ = 0E+. Итог б) = 50E- .

Лучший итоговый эволюционный потенциал = 2E+ , 50E- 2E+(!!).

9

Page 10: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Четвертая структуризация словаря

(наибольший размер образа в четыре символа)

а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>: R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ), затраты энергии на распознавание = 4E-, контролирование потенциальной энергии ТФ = 8E+. Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+.

б) Максимальная форма (без дублирования): <АКРИ><ИСРИ><ИСМА> <АКДУ><УБЛЕ><ЕНДУ> … <АКМА>:

R(ИС)= 48R=24Е-, прогнозирование (Т) = 0Т (на образ), затраты энергии на распознавание = 48E-, контролирование потенциальной энергии ТФ = 0,5E+. Итог б) = 78E- .

Лучший итоговый эволюционный потенциал = 2E+ , 78E- 2E+

10

Page 11: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Пятая и другие структуризации словаря

Лучший итоговый эволюционный потенциал = 2E+ , 204E- 2E+

Шестая структуризация словаря, седьмая … и т.д. 2E+ !!! Худший - E-

Теоретический анализ результатов эксперимента показывает, что эволюционный потенциал ИС обратно пропорционален размеру словаря,

Размеры минимальных и максимальных словарей ИС соотносятся как:

o(N) и o(N3) !!! где: N – максимальный размер образа словаря

11

Page 12: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

МАКРИСРИСМАКДУБЛЕН…

t01 t02 t03ПО

МАКРИС

ЛЕН ДУБ

N

£

АвтоструктуризацияАвтоструктуризация информацииинформации в ИСв ИС

ИС

АКРИСРИСМАКДУБЛЕНД …

АКМ

РИС ДУБ

МАКЛЕН

N=4

СN[L/£]

= N2+ [L/£]

L=3

o(N3) >> o(N) !!!

max min

Минимальный словарь ИС

-----> ! ! !

Образы ИС = процессам ПО

N2(L-1)=32

min

max

12

Page 13: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

АвтоструктуризацияАвтоструктуризация иерархических иерархических

процессовпроцессов

ПО …ДА КОЛЯ ЛОВИТ РЫБУ СА… ИС

При минимизации словаря на нейросемантических структурах, его топология гомоморфна структуре исходных процессов ПО

Подл. Сказ. Обст.

{…}{…}{…}иерархическая

структура словарей образов

Подл. Сказ. Обст.

{…}{…}{…}иерархические

процессы

13

Page 14: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Нейросемантическая форма представления информации

Предметная область

11011010001101101001-

Алгоритм

НСС

Номера слоев

6 5 4 3 2 1

0

1 2 3 4 5 6 Номера элементов в слоях

N-элементы

Связи

"0" "1"

Семантика, тексты ПО, содержание процессов

НСС

Автоматическое выделение образов-процессов из предметной области в нейроподобные элементы НСС при минимизации ресурсных затрат (памяти)

N‑элемент (образ НСС) процесс предметной области

14

Page 15: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Автоструктуризация на нейросемантических структурах

RИС = f(число N-элементов, число связей)в битах

1/P (компрессия) = --------------------------------------------------------- 0 при t TФИС = объем текстовой информации в ИС в

битахили RИС / TФИС 0 и RИС const, при t M

при t

Примеры:а) <RISMAKDUBLENLENDUBMAKMAKLENRISRISLENMAKRISDUBRIS> правильно выделяются все процессы: <MAK><RIS><MAK><DUB>;б)<ДОМЗЕБРЫСКИТНАДОМДОМВНАДОМВСКИТВНАСКИТВВЗЕБРЫНАВНА>, правильно выделяются все процессы:<ЗЕБРЫ><СКИТ><ДОМ><НА>

<В>.сдвиг алфавита А в кодах ASCII в примере б)<ЕПНИЖВСЬТЛЙУОБЕПНЕПНГОБЕПНГТЛЙУГОБТЛЙУГЖВСЬОБГОБ> на +1 <?IGB@<KVLECMH;?IG?IG=H;?IG=LECM =H;LECM==B<KVH;=H;{> на -133.

15

Page 16: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

НСС – это пример 1-го формального преобразования количественной текстовой формы представления информации в качественно новую форму –

структуру образов ИС

0

"без учителя" "игра"

Авто-струк-тури-зация

log (tn) (в битах)

"с учителем" – "школа"

1 —

Критерии достаточности: а) все пространство состояний; б) если человек может правильно структурировать данный тексто- вой материал в непривычной, но взаимнооднозначной нотации, в) наличие характерных особенностей динамического процесса при минимизации ресурса RИС

16

Page 17: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

По минимальной функции затрат ресурсов ИС Rис можно объективно определять

процессы ПО

Сигнал С С

С Инфор- мация

И

С И Знание

Автомат "животн." ИС-человекБШ

ПС

"Телесериал"

Реальный

bsejgr…

abcabc...

Mather…

При TИС = const (t)

ПО

линейная; логарифмическая; const;функции затрат Rис

f = (RИС (t)) :

t

RИС

t

RИС

t

RИС ИС

Информация – знаковая последовательность на языке системы, соответствующая целому числу причинно-связанных процессов ПО…

Определения:

17

Page 18: Бодякин В.И.  к.ф.-м.н. с.н.с. Институт проблем управления РАН  им. В.А. Трапезникова, Москва

Теорема: минимальная форма словаря ИС может достигаться только при ее изоморфности исходной структуре процессов ПО

Доказательство: Если представить формирование текстовой формы двумя независимыми и непересекающимися процессами А и Б, то становится очевидным,

проц. А проц. Б 010010 УКЛОН ЭРМИТАЖ 101010010

образ А образ Б

что минимальным словарем образов закрашивающим эти два процесса могут быть только образы совпадающие по текстовой форме с генерирующих их процессами.

На вопрос: "Почему все организмы 'единодушны' в класте- ризации окружающего нас мира на отдельные образы ?" Вытекает ответ: "Т.к. минимальный словарь, дает эволюци-онные преимущества, то все ИС данной ПО выбирают его, а соответственно, и его образы".

18

ИС

ПО