28
Разработка системы поиска логических закономерностей в реляционных базах данных Выполнила: Чуйко Ю.В. Научный руководитель: к.ф.-м.н., доцент Вдовицын В.Т.

Разработка системы поиска логических закономерностей в реляционных базах данных

  • Upload
    vaughan

  • View
    43

  • Download
    3

Embed Size (px)

DESCRIPTION

Разработка системы поиска логических закономерностей в реляционных базах данных. Выполнила: Чуйко Ю.В. Научный руководитель: к.ф.-м.н., доцент Вдовицын В.Т. Введение. - PowerPoint PPT Presentation

Citation preview

Page 1: Разработка системы поиска логических закономерностей в реляционных базах данных

Разработка системы поиска логических закономерностей в реляционных базах

данных

Выполнила: Чуйко Ю.В.

Научный руководитель: к.ф.-м.н., доцент Вдовицын В.Т.

Page 2: Разработка системы поиска логических закономерностей в реляционных базах данных

Введение

С развитием информационных технологий наиболее популярным способом хранения информации стала организация реляционных баз данных. Средства СУБД облегчает обработку собранного материала, однако стандартный набор их возможностей (ввод, поиск, корректировка данных) недостаточен для более сложного автоматизированного анализа данных.

В настоящее время активно развивается Data Mining - направление, в рамках которого разрабатываются методы интеллектуального анализа больших объемов информации.

Page 3: Разработка системы поиска логических закономерностей в реляционных базах данных

Цели работы

• Исследование возможностей применения методов Data Mining для решения задач анализа реляционных баз данных в технических и в гуманитарных областях науки

• Разработка методики применения этих методов на практике

• Создание программных средств для автоматизации процесса проведения анализа данных на основе данной методики

Page 4: Разработка системы поиска логических закономерностей в реляционных базах данных

Методы Data Mining

Вывод уравнений– Входные данные - выборки числовых значений– Результат - зависимости в виде уравнений – Используемая база - математический аппарат

прикладной статистики, методы ИИ – Примеры - регрессионный, дисперсионный,

дискриминантный, кластерный и т.д. анализ

F=α1F1+α2F2+α3F3

ρH=Σ|xik-xjk|Y=ax+b

Page 5: Разработка системы поиска логических закономерностей в реляционных базах данных

Методы Data Mining

Кросс-табуляция – Входные данные - таблицы частот значений

переменных в выборке– Результат - таблицы частот различных

сочетаний значений табулируемых переменных – Пример кросс-табуляции:

Язык Финский Русский

К-во компонент 1 к-т 2 к-та Σ 1 к-т 2 к-та Σ

Топонимы

Этнонимы n111 n1

12 n11* n2

11 n212 n2

1*

Антропонимы n121 n1

22 n12* n2

21 n222 n2

2*

Σ n1*1 n1

*2 n1 n2*1 n2

*2 n2

Page 6: Разработка системы поиска логических закономерностей в реляционных базах данных

Методы Data Mining

Поиск логических закономерностей – Входные данные - цепочки значений

переменных– Результат - логические закономерности:

• значимые множества: сочетания значений, регулярные эпизоды

• правила: ассоциативные, условия, классификации

• тенденции• отклонения• периоды

– Используемые в работе методы: поиск значимых множеств и генерация правил

Page 7: Разработка системы поиска логических закономерностей в реляционных базах данных

Поиск логических закономерностей в реляционных базах данных

Исходные данные - набор кортежей, являющихся выборкой значений определенного набора атрибутов отношений реляционной базы данных.

(a1=“…”, a2=“…”, …..)(a1=“…”, a3=“…”, …..)(a4=“…”, a5=“…”, …..)…………………………

Один из атрибутов данного набора - первичный ключ. Каждому значению первичного ключа в выборке соответствует некоторый объект. Кортежи с одним значением первичного ключа описывают свойства одного объекта.

Page 8: Разработка системы поиска логических закономерностей в реляционных базах данных

Поиск логических закономерностей в реляционных базах данных

Формальная модель исходных данных

T={t} - исходный набор, в котором каждый объект t={τi} описывается как множество свойств τi.

Θ = {ω : tT : τit : τi=ω} - множество всех возможных свойств, элементы которого составляют любое множество свойств e={eiΘ}Θ.

Page 9: Разработка системы поиска логических закономерностей в реляционных базах данных

Поиск логических закономерностей в реляционных базах данных

Поиск значимых множеств

Для любого множества свойств e Θ определена величина

- поддержка e в T.

minsupport - задаваемый нижний порог поддержки.

Значимым множеством называется eΘ : s(e,T)>minsupport.

Алгоритмы поиска значимых множеств:

Apriory - ограниченный перебор,

Prefix-Span - построение дерева решений.

|T}{t|

|t}e:T{t|T)s(e,

Page 10: Разработка системы поиска логических закономерностей в реляционных базах данных

Поиск логических закономерностей в реляционных базах данных

Генерация правил

Rule={Antecedent => Consequent | c, s} - правило, где

Antecedent и Consequent - подмножества Θ,

- поддержка Rule в T.

- степень уверенности Rule в T.

Правила с задаваемыми нижними порогами поддержки и уверенности minsupport и minconf генерируются непосредствено из найденных значимых множеств.

|T}{t|

|}tConsequent & tAntecedent:T{t|T)s(Rule,s

|t}Antecedent:T{t|

|}tConsequent & tAntecedent:T{t|T)(Rule,cc

Page 11: Разработка системы поиска логических закономерностей в реляционных базах данных

Программная система DMiner

DMiner - програмная система, представляющая собой набор инструментов для анализа реляционных баз данных. Программная система реализована на языке Java и является клиентским приложением по отношению к СУБД анализируемых баз данных.

Java

-пр

ил

ожен

ие

DM

iner

JDB

C

Driv

erM

anag

er

JDB

C-

OD

BC

B

ridge

райв

ерO

DB

C-

дра

йвер

JDBC-драйвер

СУБДсобственный протокол доступа СУБД

Page 12: Разработка системы поиска логических закономерностей в реляционных базах данных

Базовый состав модулей DMiner

• Модули для загрузки исходных данных в рабочую базу данных

– Загрузка с интерактивной настройкой параметров

– Загрузка на основе параметров из текстового файла

• Модули, реализующие процедуры выполнения алгоритмов поиска значимых множеств и генерации правил

• Модули, обеспечивающие доступ к результатам поиска логических закономерностей и их наглядное представление

Page 13: Разработка системы поиска логических закономерностей в реляционных базах данных

Дополнительный состав модулей

• Модули, связанные с решением задач Web Mining

– сканер Web-сайта, предназначенный для определения и занесения в базу данных логической структуры сайта

– модуль, выполняющий разбор log-файла сервера с занесением в базу данных хранящейся в нем информации о запросах

– модуль, предназначенный для графической визуализации регулярных эпизодов с учетом структуры сайта

Page 14: Разработка системы поиска логических закономерностей в реляционных базах данных

Общая схема работы с DMiner

• Подготовка исходных данных– Настройка параметров загрузки данных

• Интерактивная настройка• Текстовый файл

– Загрузка и кодирование данных• Анализ данных

– Поиск значимых множеств– Генерация правил

• Просмотр результатов анализа

Page 15: Разработка системы поиска логических закономерностей в реляционных базах данных

Интерактивная настройка параметров загрузки

Page 16: Разработка системы поиска логических закономерностей в реляционных базах данных

Текстовый файл с параметрами загрузки

Page 17: Разработка системы поиска логических закономерностей в реляционных базах данных

Настройка процедур поиска значимых множеств и правил

Page 18: Разработка системы поиска логических закономерностей в реляционных базах данных

Интерфейс для доступа к результатам анализа

Page 19: Разработка системы поиска логических закономерностей в реляционных базах данных

Анализ топонимической базы данных TORIS

База данных TORIS содержит информацию по топонимам Европейского Севера России, описываемым по 25 характеристикам. Г.М. Кертом определен ряд задач, связанных с анализом этих данных. В основе анализа лежит определение частотных характеристик топонимов, выявление характерных повторяемых элементов. Подобные задачи могут быть решены с использованием методов поиска логических закономерностей.Работа по применению методов поиска логических закономерностей к анализу топонимической базы данных поддержана грантом РГНФ (N 03-04-12033в).

Page 20: Разработка системы поиска логических закономерностей в реляционных базах данных

Анализ топонимической базы данных TORIS

• Анализируемая часть базы данных: топонимы Кемского района (397 русских топонимов)

• Анализируемые свойства для топонима: объект топонима, компоненты топонима

• Схема работы:– загрузка информации о компонентах и объектах

топонимов Кемского района– поиск значимых множеств с minsupport=0.5%– генерация ассоциативных правил с

minsupport=0.5% и minconf=2%– просмотр результатов в текстовом

представлении

Page 21: Разработка системы поиска логических закономерностей в реляционных базах данных

Анализ топонимической базы данных TORIS

Примеры полученных правил:– (Объект=остров)=>(Компонент=луда) c=26.28%,

s=7.81%– (Объект=остров)=>(Компонент=большой) c=5.08%,

s=1.51%– (Объект=остров)=>(Компонент=малый) c=4.24%,

s=1.26%– (Объект=остров)=>(Компонент=горелый) c=3.4%,

s=1.01%– (Объект=остров)=>(Компонент=остров) c=3.4%,

s=1.01%– (Объект=остров)=>(Компонент=березовец) c=3.4%,

s=1.01%– (Объект=остров)=>(Компонент=луды) c=2.56%,

s=0.76%

Page 22: Разработка системы поиска логических закономерностей в реляционных базах данных

Анализ посещений Web-сайта

Схема работы:• Подготовка исходных данных

– сканирование сайта для определения его логической структуры в терминах гиперссылок

– разбор log-файла сервера с занесением в базу данных информации о переходах пользователей по гиперссылкам

– выделение для каждого пользователя сессий - цепочек переходов по гиперссылкам сайта за один сеанс посещения

• Поиск регулярных эпизодов - значимых множеств в виде цепочек переходов

• Просмотр результатов в текстовом и графическом виде

Page 23: Разработка системы поиска логических закономерностей в реляционных базах данных

Сканирование сайта

Page 24: Разработка системы поиска логических закономерностей в реляционных базах данных

Разбор log-файла сервера

Page 25: Разработка системы поиска логических закономерностей в реляционных базах данных

Анализ посещений Web-сайта

Схема работы:• Подготовка исходных данных

– сканирование сайта для определения его логической структуры в терминах гиперссылок

– разбор log-файла сервера с занесением в базу данных информации о переходах пользователей по гиперссылкам

– выделение для каждого пользователя сессий - цепочек переходов по гиперссылкам сайта за один сеанс посещения

• Поиск регулярных эпизодов - значимых множеств в виде цепочек переходов

• Просмотр результатов в текстовом и графическом виде

Page 26: Разработка системы поиска логических закономерностей в реляционных базах данных

Представление результатов в графическом виде

Page 27: Разработка системы поиска логических закономерностей в реляционных базах данных

Результаты анализа посещений http://biodiv.krc.karelia.ru

• Исходные данные: log-файл сервера с 22 ноября 1999 г. по 27 ноября 2001 г.

• Количество ресурсов сайта: 267 страниц, связанных 2264 гиперссылками

• Количество посетителей: 1947• Количество запрошенных страниц: 13229• Количество выделенных сессий: 1234• Примеры регулярных эпизодов:

– (Insects->Mammals->Ladoga ringled sea) s=0.97%– (Forest->Plants->Protected Areas->Wetlands) s=0.81%– (Насекомые->Млекопитающие->Ладожская нерпа)

s=0.65%– (Галерея фотографий->Птицы восточного Приладожья

->Редкие и охраняемые виды птиц->Ключевые орнитологические территории и охрана птиц Карелии) s=0.57%

Page 28: Разработка системы поиска логических закономерностей в реляционных базах данных

Заключение

• Проведенные исследования показали работоспособность системы поиска логических закономерностей при решении практических задач

• Работа по развитию возможностей разработанной системы может быть продолжена в следующих направлениях:– уменьшение времени выполнения процедур

загрузки и анализа данных– разработка методов обобщения находимых

закономерностей и поиска их оптимальных комбинаций