113
داده ﮐﺎويdata Mining داﻧﺸﮕﺎه آزاد اﺳﻼﻣﯽ ﺳﯿﺮﺟﺎن ﻧﯿﻢ ﺳﺎل اول95 - 94

داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

داده کاويdata Mining

دانشگاه آزاد اسالمی سیرجان94-95نیم سال اول

معرفی درسمراحل درسbull

مقدمه و مفاهیم اولیه

استخراج الگوهاي و قوانین انجمنیپرتکرار

طبقه بندي داده ها

خوشه بندي داده ها

مباحث کاربردي منبع درس

Data Mining Concepts and Techniques Third EditionAuthors Jiawei Han Micheline KamberPublisher Morgan Kaufmann Publishers

ارزشیابی درسنمره 80ترمامتحان پایان -120ارائه شفاهی موضوعات مرتبط با درس -2

از دیدگاه چرا داده کاوي تجاري

مقدار زیادي داده در حال جمع آوري و انباشت هستbullداده هاي اینترنتی-داده هاي تجارت الکترونیک-داده هاي خرید از فروشگاهها-داده هاي ترا کنش هاي بانکی و کارت هاي اعتباري -

اندکامپیوتر ها قوي تر و ارزان تر شده bullاندرقابت هاي تجاري سخت تر شدهbull

)مشتري مداري(ارائه خدمات بهتر به مشتریان و جلب نظر مشتریان -

از دیدگاه چرا داده کاوي علمی

داده ها با سرعت خیلی زیاد جمع آوري و ذخیره می شوند bull)گیگا بایت در ثانیه(

هاي موجود در ماهواره هاحسگر-تلسکوپ هاي فضایی-داده هاي خرید ثبت شده در فروشگاهها-داده هاي ترا کنش هاي بانکی و کارت هاي اعتباري -

ندتکنیکهاي قدیمی براي این داده ها قابل استفاده نیستbullداده کاوي به دانشمندان امکان میدهد کهbull

داده ها را گروه بندي و دسته بندي کنند-فرضیه هاي جدیدي را شکل دهند-

The world is data rich but information poor

کاوش مجموعه داده هاي بزرگانگیزه

معموال اطالعات نهفته اي در داده ها وجود دارد که تا کنون آشکار bullنشده است

براي کشف اطالعات مفید توسط انسانها هفته ها زمان نیاز هستbullاندخیلی از داده ها هنوز تحلیل نشده bull

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of analysts

disks

disks

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Units Capacity PBs
1995 89054 1048
1996 105686 1839
1997 129281 34363
1998 143649 72436
1999 165857 13946
2000 187835 25537
2001 212800 4641
2002 239138 8119
2003 268227 13027
1995 1048
1996 1839
1997 34363
1998 72436
1999 13946
2000 25537
2001 4641
2002 8119
2003 13027
Page 2: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

معرفی درسمراحل درسbull

مقدمه و مفاهیم اولیه

استخراج الگوهاي و قوانین انجمنیپرتکرار

طبقه بندي داده ها

خوشه بندي داده ها

مباحث کاربردي منبع درس

Data Mining Concepts and Techniques Third EditionAuthors Jiawei Han Micheline KamberPublisher Morgan Kaufmann Publishers

ارزشیابی درسنمره 80ترمامتحان پایان -120ارائه شفاهی موضوعات مرتبط با درس -2

از دیدگاه چرا داده کاوي تجاري

مقدار زیادي داده در حال جمع آوري و انباشت هستbullداده هاي اینترنتی-داده هاي تجارت الکترونیک-داده هاي خرید از فروشگاهها-داده هاي ترا کنش هاي بانکی و کارت هاي اعتباري -

اندکامپیوتر ها قوي تر و ارزان تر شده bullاندرقابت هاي تجاري سخت تر شدهbull

)مشتري مداري(ارائه خدمات بهتر به مشتریان و جلب نظر مشتریان -

از دیدگاه چرا داده کاوي علمی

داده ها با سرعت خیلی زیاد جمع آوري و ذخیره می شوند bull)گیگا بایت در ثانیه(

هاي موجود در ماهواره هاحسگر-تلسکوپ هاي فضایی-داده هاي خرید ثبت شده در فروشگاهها-داده هاي ترا کنش هاي بانکی و کارت هاي اعتباري -

ندتکنیکهاي قدیمی براي این داده ها قابل استفاده نیستbullداده کاوي به دانشمندان امکان میدهد کهbull

داده ها را گروه بندي و دسته بندي کنند-فرضیه هاي جدیدي را شکل دهند-

The world is data rich but information poor

کاوش مجموعه داده هاي بزرگانگیزه

معموال اطالعات نهفته اي در داده ها وجود دارد که تا کنون آشکار bullنشده است

براي کشف اطالعات مفید توسط انسانها هفته ها زمان نیاز هستbullاندخیلی از داده ها هنوز تحلیل نشده bull

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of analysts

disks

disks

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Units Capacity PBs
1995 89054 1048
1996 105686 1839
1997 129281 34363
1998 143649 72436
1999 165857 13946
2000 187835 25537
2001 212800 4641
2002 239138 8119
2003 268227 13027
1995 1048
1996 1839
1997 34363
1998 72436
1999 13946
2000 25537
2001 4641
2002 8119
2003 13027
Page 3: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

از دیدگاه چرا داده کاوي تجاري

مقدار زیادي داده در حال جمع آوري و انباشت هستbullداده هاي اینترنتی-داده هاي تجارت الکترونیک-داده هاي خرید از فروشگاهها-داده هاي ترا کنش هاي بانکی و کارت هاي اعتباري -

اندکامپیوتر ها قوي تر و ارزان تر شده bullاندرقابت هاي تجاري سخت تر شدهbull

)مشتري مداري(ارائه خدمات بهتر به مشتریان و جلب نظر مشتریان -

از دیدگاه چرا داده کاوي علمی

داده ها با سرعت خیلی زیاد جمع آوري و ذخیره می شوند bull)گیگا بایت در ثانیه(

هاي موجود در ماهواره هاحسگر-تلسکوپ هاي فضایی-داده هاي خرید ثبت شده در فروشگاهها-داده هاي ترا کنش هاي بانکی و کارت هاي اعتباري -

ندتکنیکهاي قدیمی براي این داده ها قابل استفاده نیستbullداده کاوي به دانشمندان امکان میدهد کهbull

داده ها را گروه بندي و دسته بندي کنند-فرضیه هاي جدیدي را شکل دهند-

The world is data rich but information poor

کاوش مجموعه داده هاي بزرگانگیزه

معموال اطالعات نهفته اي در داده ها وجود دارد که تا کنون آشکار bullنشده است

براي کشف اطالعات مفید توسط انسانها هفته ها زمان نیاز هستbullاندخیلی از داده ها هنوز تحلیل نشده bull

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of analysts

disks

disks

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Units Capacity PBs
1995 89054 1048
1996 105686 1839
1997 129281 34363
1998 143649 72436
1999 165857 13946
2000 187835 25537
2001 212800 4641
2002 239138 8119
2003 268227 13027
1995 1048
1996 1839
1997 34363
1998 72436
1999 13946
2000 25537
2001 4641
2002 8119
2003 13027
Page 4: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

از دیدگاه چرا داده کاوي علمی

داده ها با سرعت خیلی زیاد جمع آوري و ذخیره می شوند bull)گیگا بایت در ثانیه(

هاي موجود در ماهواره هاحسگر-تلسکوپ هاي فضایی-داده هاي خرید ثبت شده در فروشگاهها-داده هاي ترا کنش هاي بانکی و کارت هاي اعتباري -

ندتکنیکهاي قدیمی براي این داده ها قابل استفاده نیستbullداده کاوي به دانشمندان امکان میدهد کهbull

داده ها را گروه بندي و دسته بندي کنند-فرضیه هاي جدیدي را شکل دهند-

The world is data rich but information poor

کاوش مجموعه داده هاي بزرگانگیزه

معموال اطالعات نهفته اي در داده ها وجود دارد که تا کنون آشکار bullنشده است

براي کشف اطالعات مفید توسط انسانها هفته ها زمان نیاز هستbullاندخیلی از داده ها هنوز تحلیل نشده bull

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of analysts

disks

disks

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Units Capacity PBs
1995 89054 1048
1996 105686 1839
1997 129281 34363
1998 143649 72436
1999 165857 13946
2000 187835 25537
2001 212800 4641
2002 239138 8119
2003 268227 13027
1995 1048
1996 1839
1997 34363
1998 72436
1999 13946
2000 25537
2001 4641
2002 8119
2003 13027
Page 5: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

The world is data rich but information poor

کاوش مجموعه داده هاي بزرگانگیزه

معموال اطالعات نهفته اي در داده ها وجود دارد که تا کنون آشکار bullنشده است

براي کشف اطالعات مفید توسط انسانها هفته ها زمان نیاز هستbullاندخیلی از داده ها هنوز تحلیل نشده bull

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of analysts

disks

disks

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Units Capacity PBs
1995 89054 1048
1996 105686 1839
1997 129281 34363
1998 143649 72436
1999 165857 13946
2000 187835 25537
2001 212800 4641
2002 239138 8119
2003 268227 13027
1995 1048
1996 1839
1997 34363
1998 72436
1999 13946
2000 25537
2001 4641
2002 8119
2003 13027
Page 6: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

کاوش مجموعه داده هاي بزرگانگیزه

معموال اطالعات نهفته اي در داده ها وجود دارد که تا کنون آشکار bullنشده است

براي کشف اطالعات مفید توسط انسانها هفته ها زمان نیاز هستbullاندخیلی از داده ها هنوز تحلیل نشده bull

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of analysts

disks

disks

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Units Capacity PBs
1995 89054 1048
1996 105686 1839
1997 129281 34363
1998 143649 72436
1999 165857 13946
2000 187835 25537
2001 212800 4641
2002 239138 8119
2003 268227 13027
1995 1048
1996 1839
1997 34363
1998 72436
1999 13946
2000 25537
2001 4641
2002 8119
2003 13027
Page 7: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

disks

disks

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Units Capacity PBs
1995 89054 1048
1996 105686 1839
1997 129281 34363
1998 143649 72436
1999 165857 13946
2000 187835 25537
2001 212800 4641
2002 239138 8119
2003 268227 13027
1995 1048
1996 1839
1997 34363
1998 72436
1999 13946
2000 25537
2001 4641
2002 8119
2003 13027
Page 8: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

disks

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Page 9: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

chart data gap

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Page 10: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

chart data gap 2

26535
105700
27229
333100
27245
758430
27309
1650400
25953
3377400

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
1995 1995
1996 1996
1997 1997
1998 1998
1999 1999
Page 11: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

data gap

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
PhD Petabytes Terabytes Total TBs PBs
1995 1057 105700 105700 1057
1996 2274 227400 333100 3331
1997 42533 425330 758430 75843
1998 89197 891970 1650400 16504
1999 1727 1727000 3377400 33774
2000 5792 5792000 9169400 91694
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Science and engineering PhDs total 22868 24023 24675 25443 26205 26535 27229 27245 27309 25953
105700 333100 758430 1650400 3377400
105700 333100 758430 1650400 3377400
Page 12: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Sheet3

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 13: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

داده کاوي چیستاستخراج اطالعات مفید و ناشناخته از داده ها تعریف اولbullزارهاي آنالیز و اکتشاف از داده هاي با حجم زیاد بوسیله اب تعریف دومbull

خودکار و نیمه خودکار به منظور کشف الگوهاي معنادار

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 14: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

مراحل اکتشاف دانش

(Data Cleaning) پاکسازي داده ها

(Data Integration) یکپارچه سازي داده ها

(Data Selection) انتخاب داده ها

(Data Transformation) تبدیل داده ها

(Data Mining) داده کاوي

(Pattern Evaluation) а الگوهاارزیابی

(knowledge Representation) ارائه دانش

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 15: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Databases

لم آماراز دیدگاه یادگیري ماشین و ع فرایند اکتشاف دانش

Input Data Data Mining

Data Pre-Processing

Post-Processing

bullThis is a view from typical machine learning and statistics communities

Data integrationNormalizationFeature selectionDimension reduction

Pattern discoveryAssociation amp correlationClassificationClusteringOutlier analysishellip hellip hellip hellip

Pattern evaluationPattern selectionPattern interpretationPattern visualization

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 16: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

چه نوع داده هایی می تواند مورد کاوش قرار گیرد

Database-oriented data sets and applicationsRelational database data warehouse transactional database

Advanced data sets and advanced applications Data streams and sensor dataTime-series data sequence data (incl bio-sequences) Structure data graphs social networks and multi-linked dataObject-relational databasesMultimedia databaseText databasesThe World-Wide Web

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 17: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)ستگیتحلیل وابستگی و همب(می تواند مورد کاوش قرار گیرد الگوهاییچه

Frequent patterns (or frequent itemsets)bull What items are frequently purchased together in your Walmart

bull Association correlation vs causalitybull A typical association rule

bull BreadMilk [05 75] (support confidence)

bull Are strongly associated items also strongly correlated

bull How to mine such patterns and rules efficiently in large datasets

bull How to use such patterns for classification clustering and other applications

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 18: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

قه طب(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Classification and label prediction

bull Construct models (functions) based on some training examples

bull Describe and distinguish classes or concepts for future prediction

bull Eg classify countries based on (climate) or classify cars based on (gas mileage)

bull Predict some unknown class labels

bull Typical methods

bull Decision trees naiumlve Bayesian classification support vector machines neural networks rule-based classification pattern-based classification logistic regression hellip

bull Typical applications

bull Credit card fraud detection classifying stars diseases web-pages hellip

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 19: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

ه خوش(می تواند مورد کاوش قرار گیرد الگوهاییچه )بندي

bull Unsupervised learning (ie Class label is unknown)

bull Group data to form new categories (ie clusters) eg cluster houses to find distribution patterns

bull Principle Maximizing intra-class similarity amp minimizing interclass similarity

bull Many methods and applications

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 20: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

تالقی علوم مختلف داده کاوي

داده کاوي

یادگیري ماشین آمار

کاربرد

الگوریتم

شناسایی الگو

محاسبات با کارایی باال

بصري سازي

فناوري پایگاه داده ها

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 21: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

چرا نیاز به علوم مختلف داریمحجم زیاد داده هاbull

الگوریتمها باید قابلیت کار با حجم زیادي از داده ها را داشته باشندbullداده ها داراي ابعاد زیادي هستندbull

مثال میکرو آرایه ها داراي ده ها هزار ویژگی هستندbullداده ها داراي پیچیدگی زیادي هستندbull

مثل داده هاي جریانی و داده هاي حس گر هاbullداده هاي دنباله زمانی و داده هاي ترتیبیbullداده هاي ساختاري و گرافیbullوبداده هاي چند رسانه اي متنی و داده هاي bull

کاربردهاي جدید و پیچیدهbull

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 22: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

کاربردهاي داده کاوي

bull Web page analysis from web page classification clustering to PageRank amp HITS algorithms

bull Collaborative analysis amp recommender systems

bull Basket data analysis to targeted marketing

bull Biological and medical data analysis classification cluster analysis (microarray data analysis) biological sequence analysis biological network analysis

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 23: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

کاوش الگوهاي پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها

Mining frequent patterns Association and Correlation Basic concepts and methods

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 24: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

تحلیل الگو هاي پر تکرار چیستدر مکرراکه ) مجموعه اي از آیتم ها زیر دنباله ها ساختارها و (یک الگو الگوي پر تکرارbull

مجموعه داده ها تکرار می شوند

یافتن نظم ذاتی در داده ها انگیزهbull

oاسکاچو شوییمایع ظرف -چه محصوالتی معموال با هم خریداري می شوند

o د آنتی بعد از خرید کامپیوتر خری-بعد از خرید یک محصول چه محصوالت دیگري خریداري میشودویروس

o چه نوعDNAبه یک داروي جدید حساس است

o خاص کاربران به چه صفحه اي مراجعه می کنندوببعد از مالقات یک صفحه

روش و تحلیل سبد خرید مشتریان طراحی کاتالوگ محصوالت و تبلیغات تحلیل ف کاربرد هاbullها و DNA تحلیل دنباله )click stream(طراحی فروشگاهها تحلیل وبالگ ها

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 25: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

آنالیز سبد خرید

با ردتوانمیمحصولدوفروشزیادارتباطکردنپیداانمیزکهکردعملشکلیبهفروشگاهمحصوالتچینشدهدافزایشرافروش

به االهاییکچهبگیرندتصمیمتاکندمیکمکفروشندگانیکویژهفروشحالتایندرکننداعالمویژهفروشرا

یممرتبطمحصوالتدیگرفروشافزایشباعثمحصولگردد

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 26: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

آنالیز سبد خرید

119920119920فرض کنید bull = [119920119920120783120783119920119920120784120784 hellip 119920119920119950119950]هر تراکنش با نام مجموعه اقالم کاال باشد119931119931 مجموعه

119931119931اي از آیتم ها است که در آن sub 119920119920می باشد

است اگر و 119912119912شامل 119931119931گفته می شود تراکنش مجموعه اي از آیتم ها باشد119912119912فرض کنید bull

119912119912فقط اگر sub 119931119931باشد

119912119912به صورت ) Association rule(یک قانون انجمنی bull rArr 119913119913بیان می شود بطوریکه

119912119912 cap 119913119913 = empty119912119912 sub 119920119920119913119913 sub 119920119920

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 27: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)Frequent patterns(الگو هاي پر تکرار مفاهیم اولیه

گوئیمItemsetمجموعه اي از یک یا چند آیتم را bull

bullItemset که حاويk آیتم)119961119961 = 119920119920120783120783119920119920120784120784 hellip 119920119920119948119948 ( باشد راK-Itemsetگویند

هایی است که حاوي را که نشان دهنده تعداد تکرار تراکنشItemsetفرکانس تکرار یک bull

Itemset است راSupport count آنItemsetگویند

ها را هستند به کل تراکنشItemset نسبت تراکنش هایی که حاوي Itemsetبراي یک bull

Supportگویند

bullFrequent Itemset یکItemset را پر تکرار گویند اگر مقدارsupport آن کمتر از یک

حد آستانه مشخص نباشد

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 28: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)انجمنی(الگوهاي پر تکرار و قوانین وابستگی

براي استخراج قوانین وابستگی به دو قدم زیر نیاز داریمbull

پیدا کردن تمام الگوهاي پر تکرار آنها از یک حد آستانه supportبر اساس تعریف در این مرحله تمام الگوهاي پر تکرار که مقدار

)Min-Support (کمتر نباشد را مشخص می کنیم

تولید قوانین وابستگی قوي از روي الگو هاي پر تکرار

شتر باشددر این مرحله قوانین را چنان استخراج می کنیم که میزان جذابیت آنها از یک حد آستانه بی

براي تعیین میزان جذابیت یک قانون دو پارامتر براي هر قانون تعریف می شود

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 29: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

قوانین وابستگی119912119912فرض کنید قانون bull rArr 119913119913 در مجموعه تراکنش هاي119915119915براي این قانون دو پارامتر تعریف وجود دارد

می شود

Support این درصد را به است119913119913و 119912119912که حاوي 119915119915نشان دهنده درصدي از تراکنش هاي ۱119927119927(119912119912صورت احتمال cup 119913119913)بیان می کنیم

119956119956119956119956119956119956119956119956119956119956119956119956119956119956 119912119912 rArr 119913119913 = 119927119927 119912119912 cup 119913119913

Confidence 119913119913باشند آنگاه 119912119912است که اگر حاوي 119915119915بیان کننده درصدي از تراکنش هاي ۲نیز در آن وجود داشته باشد

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 = 119927119927 119913119913 119912119912

119914119914119956119956119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914119914 119912119912 rArr 119913119913 =119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912 cup 119913119913)

119930119930119956119956119956119956119956119956119956119956119956119956119956119956(119912119912)=

119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912 cup 119913119913)119930119930119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119912119912)

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 30: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

قوانین وابستگی

119912119912قانون rArr 119913119913 براي دوItemset به نامهايA وBر را یک قانون وابستگی گویند اگر شرایط زیرا دارا باشد

داراي حداقل مقدار Min_Supportباشد

داراي حداقل مقدار Min_Confidenceباشد3119912119912 cap 119913119913 = empty

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 31: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)مثال(قوانین وابستگی Tid آیتم هاي خریداري شده10 Bread Nuts Butter20 Bread Coffee Butter Eggs30 Bread Butter Eggs40 Nuts Eggs Milk50 Nuts Coffee Butter Eggs Milk

فرض کنیدباشد 50برابر supportحداقل مقدار باشد 50برابر confidenceحداقل مقدار

Frequent PatternsBread3 Nuts3 Butter4 Egg4 (Bread Butter)3

Association RuleBreadrArrButter (60100)

ButterrArrBread (6075)

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 32: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Frequent Itemset Gnerationnull

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 33: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

یک مشکلباشد119938119938120783120783119938119938120784120784hellip119938119938120783120783120782120782120782120782فرض کنید یک الگوي پر تکرار شامل مجموعه bullدتمامی زیر مجموعه هاي یک مجموعه پر تکرار حتما پر تکرار خواهند بو نکته مهمbullتعداد زیر مجموعه هاي این مجموعه برابر است با bull

120783120783120782120782120782120782120783120783 + 120783120783120782120782120782120782

120784120784 + ⋯ + 120783120783120782120782120782120782120783120783120782120782120782120782 = 120784120784120783120783120782120782120782120782 minus 120783120783 cong 120783120783 120784120784120784120784 times 120783120783120782120782120785120785120782120782

ها هم از نظر محاسبه و هم از نظر ذخیره سازي مشکل ساز itemsetاین تعداد زیاد bullاست

براي غلبه بر این مشکل دو مفهوم را معرفی می کنیمbullClosed frequent itemsetMaximal frequent itemset

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 34: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Closed Frequent Itemset

گویند هر گاه )Closed(را بسته 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده 1تعریف bull

119936119936)119935119935مثل Supper-Itemsetهیچ sub 119936119936 ( وجود نداشته باشد کهsupport_count آن

باشد119935119935مشابه

Closedرا 119930119930در مجموعه داده Itemsetیک 2تعریف bull frequent itemset گویند اگر

بسته)Closed (باشد

پر تکرار باشد

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 35: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Maximal Frequent Itemset

Maxima frequentرا 119935119935مثل Itemsetیک 119930119930در یک مجموعه داده تعریف bull

Itemset یا)Max-itemset ( گویند هر گاه119935119935 هیچ پر تکرار باشد وSupper-

Itemset مثل119936119936)119935119935 sub 119936119936 ( که وجود نداشته باشد119936119936هم پر تکرار باشد

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 36: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

مثالی دیگردو تراکنش وجود داشته باشدبیسدیتافرض کنید در یک bull

119938119938120783120783119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 119938119938120783120783119938119938120784120784 hellip 119938119938120787120787120782120782 و فرض کنید119924119924119914119914119914119914_119956119956119956119956119956119956 = باشد120783120783

119914119914119949119949119956119956119956119956119914119914119914119914ما میتوانیم دو تا bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119914119914119956119956119914119914119950119950119956119956119914119914119956119956پیدا کنیم که عبارتند از119810119810 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783 119938119938120783120783 119938119938120784120784 hellip 119938119938120787120787120782120782 120784120784

119924119924119938119938119961119961119914119914119950119950119938119938119949119949یک عدد bull 119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956 119920119920119956119956119914119914119950119950119956119956119914119914119956119956نیز وجود دارد119820119820 = 119938119938120783120783 119938119938120784120784 hellip 119938119938120783120783120782120782120782120782 120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956و اطالعات مربوط به تعداد تکرار آن می تواند براي استخراج اطالعات تمامی 119914119914مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956در ها مورد استفاده قرار گیرد119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956واقع گوییم این مجموعه تمامی اطالعات مورد نیاز براي استخراج 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را دارا می باشد

می توان گفت119914119914از مجموعه به عنوان مثالbull

119938119938120784120784119938119938120786120786120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120784120784119938119938120786120786120787120787چونکه مجموعه 120784120784 hellip 119938119938120787120787120782120782 است120784120784

119938119938120790120790119938119938120787120787120787120787 119938119938120783120783119938119938120784120784زیر مجموعه 119938119938120790120790119938119938120787120787120787120787چونکه مجموعه 120783120783 hellip 119938119938120783120783120782120782120782120782 است120783120783

119914119914119956119956119914119914119954119954119956119956119914119914119914119914119956119956فقط می توان 119924119924بر اساس مجموعه bull 119914119914119956119956119914119914119950119950119956119956119914119914119956119956ها را بدون اطالعات تکرار بدست آورد

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 37: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

پرتکرارروش هاي کاوش الگوهاي

آزمایش الگوهاي کاندیدndashو ndashروشی است مبتنی بر تولید Aprioriالگوریتم -1

روشی براي ساخت الگوهاي مکرر از طریق گسترش آنها FPGrowthروش -2

کاوش الگوهاي پر تکرار بر اساس چیدمان داده ها به صورت عمودي ECLATروش -3

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 38: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Downward Closureویژگی

این ویژگی می گوید

یک زیر مجموعه از الگو هاي پر تکرار خود پر تکرار استbull

نیز پر 119913119913119956119956119914119914119938119938119914119914119913119913119956119956119956119956119956119956119914119914119956119956پر تکرار باشد آنگاه 119913119913119956119956119914119914119938119938119914119914119925119925119956119956119956119956119956119956119913119913119956119956119956119956119956119956119914119914119956119956اگر مثال

تکرار است

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 39: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

APRIORIالگوریتم Aنام این الگوریتم به دلیل اینکه از دانش پیشین استفاده می کند bull Prioriانتخاب شده است

استفاده می Itemset-(K+1)براي تولید K-Itemsetدر این الگوریتم از اطالعات موجود در تولید bullشود

ش نتیجه کاو هاي پر تکرار یکبار مجموعه تراکنش ها اسکن می شوندitemset-1ابتدا براي یافتن bullL1نامیده می شود

هاي پر تکرار است مورد استفاده قرار می گیردitemset-2که حاوي L2براي یافتن L1سپس bull

پر تکراري پیدا نشود ادامه می یابدk-itemsetاین مراحل تا جایی که دیگر هیچ bull

نیاز به یکبار اسکن مجموعه تراکنش ها می باشدLkبراي یافتن هر bull

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 40: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)ادامه(APRIORIالگوریتم Aprioriبراي تولید هوشمندانه تر مجموعه هاي پر تکرار می توان از خاصیت bull Property استفاده

کرد

bullApriori Property همه زیر مجموعه هاي نا تهی از یک مجموعه پر تکرار باید پر تکرار باشند

این خاصیت بر اساس مشاهده زیر بنا شده استbullال ح را نداشته باشد بنابراین پر تکرار نیست119930119930119956119956119956119956119956119956119956119956119956119956119956119956حداقل مقدار استانه 119920119920اگر یک مجموعه مثل

تواند تعداد تکرار بیشتري نمی(119920119920⋃119912119912)به این مجموعه اضافه شود مجموعه حاصل 119912119912اگر آیتمی مثل تواند پر تکرار باشدبنابراین نمی داشته باشد

)جواب در اسالیدهاي بعدي( چگونه از این ویژگی استفاده کنیم bull

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 41: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Lk-1بر اساس Lkچگونگی ایجاد

Lkفرایند دو مرحله اي براي ایجاد bull

گام اتصال (join step) براي ایجادLk که معرف مجموعه کاندیداهايk-itemset هستند

Lk-1مجموعه بدست آمده را را با خودش اتصال می دهیمCkمینامیم

گام هرس (prune step) بر اساس خاصیتApriorit property هر عنصرk-itemset

تواند پر تکرار باشدنباشند نمیLk-1هایش در که زیر مجموعه

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 42: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

1مثال

Min_Sup = 2

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 43: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

2مثال

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 44: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

رارتولید قوانین وابستگی از روي الگوهاي پر تک

ي کار آسانی قو) انجمنی(زمانیکه الگوهاي پر تکرار از روي پایگاه داده استخراج شدند تولید قوانین وابستگی bullخواهد بود

را داشته باشدconfidenceو supportحداقل استانه هاي در این حالت قانونی قوي است کهbull

نحوه تولید قوانین به شرح زیر استbull

براي هر itemset پر تکرار مثل119949119949تمام زیر مجموعه هاي نا تهی آن تولید می شود

براي هر زیر مجموعه غیر تهی 119956119956 از119949119949قانونی به صورت زیر تولید می شود

119956119956 rArr 119949119949 minus 119956119956 119914119914119914119914119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119923119923)119956119956119956119956119956119956119956119956119956119956119956119956119956119956_119914119914119956119956119956119956119914119914119956119956(119930119930) ge 119950119950119914119914119914119914_119914119914119956119956119914119914119914119914

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 45: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

مثال

119949119949به عنوان مثال براي الگوي پر تکرار bull = I1I2I5 قوانین تولید شده عبارتند از

min_supدر صورتی که bull انتخاب می شوند6و3و2باشد 70 =

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 46: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Aprioriبهبود الگوریتم

Aprioriاصلی ترین چالشهاي محاسباتی الگوریتم bullمرور چند باره پایگاه داده تعداد زیاد کاندیداهاي تولید شده محاسبه supportبراي کاندیداها

ایده هاي اصلیbullکاهش تعداد مرور پایگاه داده

کاهش تعداد کاندیداها

تسهیل محاسبه supportکاندیداها

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 47: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Aprioriالگوریتم وريافزایش بهره

استفاده از توابع در هم ساز ) (Hash-based techniques)

کاهش تراکنش) (Transaction reduction)ها

پارتیشن بندي ) (Partitioning)

نمونه برداري ) (Sampling)

شمارش پویاي آیتم ست ها ) (Dynamic itemset counting)

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 48: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

استفاده از تابع در هم ساز) 1

داز این روش براي کاهش مجموعه هاي کاندیدا و اسکن پایگاه داده ها استفاده می شوbull

کاهش می یابدCkدر این روش اندازه bull

ها را نیز تولید کردitemset-2ها می توان itemset-1مثال در زمان تولید bull

بسته بندي می کنیمها را با استفاده از یک تابع درهم سازitemset-2در این مرحله bull

قرار می گیرد(bucket)در یک بسته itemset-2هر bull

باشد پر تکرار نیستsupportهر بسته که تعداد اعضاء آن کمتر از حد آستانه bull

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 49: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

مثال119945119945 119920119920120783120783 119920119920120786120786 = 120783120783 times 120783120783120782120782 + 120786120786 119950119950119956119956119914119914 120784120784 = 120782120782

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 50: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

کاهش تراکنش ها) 2

هایی که باید اسکن شوند کاسته می شوددر این روش در هر مرحله از تعداد تراکنشbull

پر تکراري نباشد نمیتواندk-itemsetیک تراکنش که شامل هیچ ایده اصلیbull

(k+1)-itemsetجش هاي بنابراین این تراکنش می تواند در سن پر تکرار داشته باشد

بعدي حذف شود

است نیازي به در نظر گرفتن این تراکنشpgtkها که p-itemsetبنابراین براي تولید bull

نیست

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 51: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Growthالگوریتم

این الگوریتم به صورت افزایشی رشد می کندbull

تهدف این الگوریتم یافتن الگوهاي پر تکرار بدون تولید مجموعه هاي کاندید اسbull

الگوریتم در دو فاز عمل می کندbull

تولید درخت FP-Tree

تولید الگوهاي FP-Treeاز روي درخت پرتکرار

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 52: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Growthالگوریتم

تولید درخت FP-Tree

(a پایگاه داده براي محاسبهsupport count ر د هر آیتم یکبار از ابتدا تا انتها پیمایش می شود

نزولی بر این مرحله آیتم هاي کم تکرار نادیده گرفته می شوند و آیتم هاي پر تکرار به ترتیبشان مرتب می شوندsupport countاساس مقدار

(b آیتم هاي تمام تراکنش هاي پایگاه داده بر اساس ترتیبsupport countها مرتب می شود

(c پایگاه داده براي بار دوم پیمایش می شود تا درختFP-Treeساخته شود

با استفاده از یک مثال تشریح می گرددFP-Treeنحوه ساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 53: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 54: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 55: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 56: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 57: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 58: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 59: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 60: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 61: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 62: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

FP-Treeساخت درخت

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 63: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)مثالی دیگر(FP-Treeساخت درخت

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 64: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

تولید الگوهاي پر تکرار

FP-Treeاز روي درخت پرتکرارالگوهاي تولید -۲پرتکرارمی توانیم الگوهاي FP-Treeبا کاوش درخت براي این منظور چنین عمل می کنیم را بدست بیاوریم

شروع می کنیم و این کار را از آیتمی FP-Treeاز برگهاي درخت bullکه در لیست آیتم هاي پر تکرار کمترین تکرار را داشته است آغاز می کنیم

دو مسیر وجود داردI5مثال براي رسیدن به bull1 (I2 I1 I51) 2 (I2 I1 I3 I51)

Conditional Patternرا (I2 I1 I31)و (I2 I11)و نامیممی ) Suffix(را پسوند الگو I5حاال bullBaseگوییم

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 65: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

تولید الگوهاي پر تکرار

bull(I2 I11) و(I2 I1 I31) راConditional Pattern Base مربوط بهI5گوییم

می باشدltI22 I12gtدر نظر بگیریم آنگاه درخت شامل مسیر 2را Min_Supاگر bull

bullI3 حذف می شود چرا که کمتر ازMin_Supاست

را در نظر بگیریمI5کافی است ترکیبات مختلف با پرتکرارحال براي تولید الگو هاي bull

I2 I5 2

I1 I5 2

I2 I1 I5 2

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 66: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

تولید الگوهاي پر تکرارهم دو مسیر وجود داردI4براي bull

1 (I2 I1 I4 1) 2 (I2 I4 1)

عبارتند ازI4هاي مربوط به Conditional Pattern Baseبنابراین

(I2 I1 1) (I2 1)

می باشد که الگوي ltI22gtبنابراین درخت شامل مسیر زیر را تولید می کند

(I2 I4 2)

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 67: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

تولید الگوهاي پر تکرارهم سه مسیر وجود داردI3براي bull

1 (I2 I1 I3 2) 2 (I2 I3 2) 3 (I1 I3 2)

عبارتند ازI3هاي مربوط به Conditional Pattern Baseبنابراین (I2 I1 2) (I2 2) (I1 2)

و ltI24 I12gtبنابراین درخت شامل مسیر ltI12gtمی باشد که الگوهاي زیر را تولید می کند

(I2 I3 4)

(I1 I3 4)

(I2 I1 I3 2)

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 68: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

تولید الگوهاي پر تکرار

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 69: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

الگوریتم استفاده از قالب داده هاي عمودي

گاهی اوقات می توان قالب داده ها را عوض کردbullه در حالت عادي براي هر تراکنش مجموعه کاال ها را به صورت سطري در مقابل آن داریم کbull

گوییم(Horizontal)به آن چینش افقی داده ها به صورت زیر است(Vertical)مقابل آن قالب عمودي bull

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 70: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

الگوریتم استفاده از قالب داده هاي عموديوریم کافی است تعداد عناصر هر مجموعه را بدست آپرتکراربراي مشخص کردن آیتم هاي bull

)support_Countبرابر است با تعداد عناصر هر مجموعه(را با هم ترکیب کنیم Itemset-1کافی است دو مجموعه Itemsets-2براي ساخت bull

)اشتراك بگیریم(

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 71: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

الگوریتم استفاده از قالب داده هاي عموديرا با هم ترکیب کنیم Itemset-2کافی است دو مجموعه هاي Itemsets-3براي ساخت bull

)اشتراك بگیریم(

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 72: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

تمرین مجموعه داده اي زیر را در نظر بگیریدbullبه روشهاي گفته شده الگوهاي پر تکرار را براي این مجموعه پیدا کنیدbullMin_supبا فرض الگوهاچند تا از قوانین قوي را براي این bull Min_Confو 40 = =

بنویسید60

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 73: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)انجمنی(روش هاي ارزیابی قوانین وابستگی ین قوي ولی در بسیاري از مواقع قوان تا بدین جا فقط تعریف قوانین قوي مطرح شده استbull

کم باشندMin_Confو Min_Supمخصوصا زمانیکه حتما جذاب نیستندبنابراین به روشهاي ارزیابی مناسبتري براي قوانین نیاز داریمbullبه مثال زیر توجه کنیدbull

تراکنش شامل بازي هاي 6000که تراکنش باشد10000فرض کنید مجموعه اي شامل تراکنش شامل هر دو باشند4000تراکنش شامل فیلم ویدئویی و 7500کامپیوتري Min_Supفرض کنید Min_Confو 30 = باشد60 =

آنگاه قانون زیرComputer Game rArr Video

خواهد بودConfidence = 66و support = 40داراي ولی آیا قانون کاربردي و جذاب است بنابراین این قانون یک قانون قوي است

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 74: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)انجمنی(روش هاي ارزیابی قوانین وابستگی این قانون گمراه کننده استbullدر واقع خرید این دو بیشتر است 66است که از 75زیرا احتمال خرید فیلم ویدئویی bull

محصول با هم رابطه عکس دارندبنابراین خرید یک محصول احتمال خرید محصول دیگر را کاهش میدهدbullبدون دانستن این موضوع یک تصمیم اقتصادي نادرست ممکن است گرفته شودbull

مبستگی یا براي بهبود معیارهاي ارزیابی می توان یک معیار دیگر را نیز اضافه کردو آن آنالیز هbullCorrelation Analysisاست

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 75: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)انجمنی(روش هاي ارزیابی قوانین وابستگی

انواع معیار هاي همبستگی عبارتند ازbullbullLiftbullӼ2

bullAll confidencebullCosine

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 76: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

مفهوم استقالل آماريدانشجو داریم1000فرض کنید

(S)دانشجو ورزش شنا می کنند 600bull(B)دانشجو فوتبال بازي می کنند 700bull(SB)دانشجو هم شنا می کنند و هم فوتبال بازي می کنند420bull

P(SUB) = 420 1000 = 042P(S) = 06 P(B) = 07P(S)timesP(B) = 042P(SUB) = P(S) timesP(B) rArr IndependentP(SUB) gt P(S) timesP(B) rArr Positive CorrelationP(SUB) lt P(S) timesP(B) rArr Negative Correlation

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 77: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Liftمعیار همبستگی

با استفاده از رابطه زیر تعریف می شودLiftمعیار

lift(A B)119875119875(119860119860 cup 119861119861)

119875119875(119860119860) times 119875119875(119861119861)

همبستگی منفی دارند) آیتم(باشد آنگاه دو مجموعه 1کمتر از liftاگر مقدار bull

دارندمثبت همبستگی ) آیتم(باشد آنگاه دو مجموعه 1از بیشتر liftاگر مقدار bull

)مستقل هستند(ندارند همبستگی ) آیتم(باشد آنگاه دو مجموعه 1برابر liftاگر مقدار bull

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 78: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Liftمعیار همبستگی

در مثال قبل

119875119875 119892119892119892119892119892119892119892119892 = 06

119875119875 119881119881119881119881119881119881119892119892119881119881 = 075

119875119875 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 = 04

119897119897119881119881119897119897119897119897 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 =119875119875( 119892119892119892119892119892119892119892119892 119907119907119881119881119881119881119892119892119881119881 )

119875119875( 119892119892119892119892119892119892119892119892 ) times 119875119875( 119907119907119881119881119881119881119892119892119881119881 )=

0406 times 075

= 089

بنابراین این دو آیتم همبستگی منفی دارند

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 79: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Contingency Table

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 80: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

)طبقه بندي(دسته بندي Classification

است که بتواند کالس هاي داده ها را مشخص کندهاییهدف دسته بندي استخراج مدل bullاین مدل ها دو دسته هستندbull

طبقه بندي ) )Classification(پیش بینی ) )Prediction(

بعضی از کاربردهاي این بحثbullدسته بندي متن ) )Text classification(تشخیص تقلب ) )Fraud detection(تشخیص پزشکی ) )Medical diagnosis(پیش بینی بازار بورس ) )Stock market prediction(طبقه بندي تصاویر ) )Image classification(دسته بندي صفحات ) аوب)Web page classification(

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 81: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

دسته بندي چیستان بانک و فرض کنید مدیر یک بانک تصمیم می گیرد بر اساس داده هاي مربوط به مشتری 1مثالbull

و به کدامیک ) Safe(تحلیل این داده ها مشخص کند اعطاي وام به کدامیک از مشتریان امن است) Risky(داراي ریسک

ا یک نرم افزار سرویس دهنده ایمیل می خواهد براي هر ایمیل ورودي مشخص کند که آی 2مثال bull)Not Spam(هست و یا یک ایمیل سالم ) Spam(این ایمیل یک هرز نامه

مار یک پزشک متخصص می خواهد با تحلیل داده هاي برگرفته شده از آزمایشات بی 3مثال bull)No(یا نه) Yes(تشخیص دهد که آیا این بیمار دچار سرطان هست

مناسبی براي داده هاي مورد ) Label(در هر سه مثال نیاز به مدلی داریم که بتواند برچسب bullارزیابی انتخاب کند

1در مثال Risky or Safe 2در مثال Spam or Not Spam 3در مثال Yes or No

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 82: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

چگونه دسته بندي انجام می شود

فرایند دسته بندي می تواند در دو فاز انجام گیردbull

فاز آموزش یا یادگیري )Learning Step ( که در این فاز یک مدل طبقه بند

)Classifier (بر اساس داده هاي موجود ساخته می شود

فاز دسته بندي )Classification Step ( که در این فاز از مدل ساخته شده براي

مناسب براي داده هاي جدید استفاده می شود) Label(تشخیص بر چسب

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 83: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Learning Step فاز اول

این مربوطه به منظور آموزش مدل دسته بندي مورد استفاده قرار می گیرد) Label(در این فاز بخشی از داده هاي پایگاه داده ها همراه با برچسب گویند) Labelled examples(داده ها باید برچسب مشخصی داشته باشند که اصطالحا به آنها داده هاي برچسب گذاري شده

) Training Set(به مجموعه داده هاي برچسب گذاري شده اي که به منظور آموزش مدل دسته بند مورد استفاده قرار می گیرند مجموعه آموزشی بعدي نمایش داده می شودnاز پایگاه داده هستند که هر کدام از این رکورد ها توسط یک بردار هاییاین مجموعه شامل رکورد گویند

119883119883 = (1199091199091 1199091199092 1199091199093 hellip 119909119909119899119899)

1198601198601این ویژگی ها را با هاستدر مجموعه داده ) Feature or Attribute(هر کدام از این مقادیر مربوط به یک ویژگی 1198601198602 1198601198603 hellip 119860119860119899119899

نشان می دهیم

براي هر نمونه از این مجموعه داده با یک ویژگی خاص که به آن بر چسب گفته می شود به یک کالس خاص تعلق می گیرد

در بحث دسته بندي اصطالحات زیر براي هر رکورد اطالعات میتواند مورد استفاده قرار گیرد نکته

Sample Example instance Data point object

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 84: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Learning Step فاز اول

وه اینکه برچسب داده هاي آموزشی در مرحله یادگیري مشخص است به این شیبدلیلbull گویند) Supervised learning(آموزشی روش آموزش با نظارت

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 85: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

یادگیري با نظارت در مقابل یادگیري بدون نظارت

یادگیري با نظارتbullداده هاي آموزشی همراه با برچسب هستند که مشخص کننده کالس آنهاستداده هاي جدید بر اساس یادگیري از روي داده هاي برچسب دار)labelled ( دسته

بندي می شوند)Unsupervised learning or Clustering(یادگیري بدون نظارت bull

براي نمونه هاي داده ها برچسب کالس مشخص نیستمعموال تعداد و نوع کالس ها هم مشخص نیست

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 86: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Learning Step فاز اول

119910119910اولین مرحله از فرایند دسته بندي می تواند به عنوان یادگیري یک نگاشت تابع bull = 119897119897(119883119883)پیش بینی کند119883119883را براي رکورد 119910119910تلقی شود که می خواهد برچسب

این نگاشت یا تابع معموال به شکل هايbull)Classification Rules(قوانین طبقه بنديbull)Decision Tree(درخت هاي تصمیم bull) Mathematical models(مدل هاي ریاضی bull

نشان داده می شوند

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 87: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Classification Step فاز دوم

ساخته شد) Classifier(تا این مرحله مدل bullدر این مرحله باید مدل ساخته شده مورد ارزیابی قرار گیردbullاستفاده می شود که از مجموعه آموزشی ) Test set(براي ارزیابی مدل از یک مجموعه تست bull

کامال مستقل استبه درستی دسته Classifierدرصدي از مجموعه تست که توسط ) Accuracy(تعریف دقت bull

بندي شده استن تائید شد می توان از آن براي دسته بندي داده هاي جدید بدوClassifierزمانی که صحت bull

برچسب از آن استفاده کرد

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 88: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Training Step مثال

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 89: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Test Step مثال

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 90: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Decision Treeدرخت تصمیم

درخت تصمیم یک ساختار درختی فلو چارت مانند است که در آنbullo یک تست بر روي یک ویژگی انجام می دهد) غیر برگ(هر گره غیر پایانیo نشان دهنده نتیجه یک تست است) یال(هر شاخهoهر گره برگ یک برچسب کالس است

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 91: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

درخت تصمیم چگونه استفاده می شود

ژگی براي یک نمونه داده جدید که بر چسب کالس آن نا مشخص است بر اساس مقادیر ویهاي آن یک مسیر از ریشه به برگ پیدا می کنیم

برچسب برگ نشان دهنده کالس پیش بینی شده براي آن نمونه داده استدرخت تصمیم را به راحتی می توان به قوانین دسته بندي تبدیل کرد

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 92: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

چرا درخت تصمیم محبوب است

ایجاد درخت تصمیم به هیچ دانش تخصصی و یا تنظیم نیاز نداردپارامتري

این درخت می تواند داده هاي با ابعاد زیاد را پوشش دهد) تعداد زیاد ویژگیها(

نمایش دانش بدست آمده از درخت تصمیم قابل فهم براي انسان است

آموزش و دسته بندي با استفاده از این درخت ساده و سریع است

دسته بندي با این مدل معموال با دقت مناسبی انجام می گیرد

الگوریتم درخت تصمیم در بسیاري از زمینه هاي کاربردي براي دسته بندي ق а ابل استفاده است

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 93: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

مشکالت الگوریتم ایجاد درخت تصمیم

کدام ویژگی ها در هر سطح درخت تصمیم استفاده شوند 1مشکلbull

و یا پرت هستندنویزبعد از ساخت درخت برخی از شاخه ها حاوي داده هاي 2مشکلbull

)Tree pruning(چگونه این شاخه ها را پیدا کرده و هرس کنیم 3مشکلbull

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 94: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

الگوریتم هاي ساخت درخت تصمیم

ID3الگوریتم bull

C45الگوریتم bull

CART (Classification And Regression Tree)الگوریتم bull

این الگوریتم ها از روش حریصانه براي ساخت درخت استفاده می کنند

روش کار آنها باال به پایین و بر اساس استراتژي تقسیم و حل است

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 95: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

الگوریتم درخت تصمیم

الگوریتم پایهbull

دمیشوساختهپایینبهباال از حلو تقسیمروش باگشتیزبارتصوبهختدرbull

در آغاز همه نمونه هاي آموزشی در گره هستندbull

)ونداگر مقادیر پیوسته باشند گسسته می ش(ویژگیهاي داده ها چند مقداري هستندbull

شوندداده ها به صورت بازگشتی و بر اساس ویژگیهاي انتخاب شده قسمت بندي میbull

ویژگی هاي آزمون بر اساس معیارهاي اکتشافی و یا آماري انتخاب می شوندbull

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 96: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

الگوریتم درخت تصمیم

شرایط براي توقف قسمت بنديbull

همه نمونه ها براي یک گره متعلق به یک کالس باشند

هیچ ویژگی براي قسمت بندي بیشتر وجود نداشته باشد ط برچسب در این شرای(

)اکثریت نمونه هاي برگ به عنوان برچسب برگ انتخاب می شود

هیچ نمونه بیشتري وجود نداشته باشد

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 97: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

استنتاج باال به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)

فر باشد Aبعدهگرايبرتصمیمیژگیوبهترینکنیدض

A هبدارقرهگرايبرتصمیمیژگیوانعنوبهرا

بر کندیجااجدیدندزفریک Aاز ارمقدهراي

مرتب شاخهیژگیوارمقدبهتوجهباگبرهگرايبرشیزموآينمونههازيسا

)فهدیژگیوارمقدنهما(باشندهشديبندطبقهکامالشیزموآينمونههاهمهگرا5

در غیر اینصورت براي گره هاي جدید برگ تکرار کن متوقف شو

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 98: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Information Gain (IG)معیار انتخاب ویژگی

به کار گرفته شده استC45و ID3این معیار در bull

براي بخش بندي انتخاب می شودIGدر هر گام از الگوریتم ساخت درخت تصمیم ویژگی با باالترین bull

|119862119862119894119894119863119863|توسط 119862119862119894119894متعلق به کالس 119863119863احتمال اینکه یک رکورد در مجموعه داده 119875119875119894119894در صورتی که bull|119863119863119894119894|

موعه براي دسته بندي یک نمونه داده در مج) آنتروپی(تخمین زده شود میزان اطالعات مورد انتظار برابر است با119863119863داده هاي

bull

bull

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 99: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Information Gain (IG)معیار انتخاب ویژگی

119907119907که داراي ) 119860119860119894119894مثال (را با استفاده از یکی از ویژگی ها 119863119863حال فرض کنید که می خواهیم مجموعه داده هاي bull119892119892111989211989221198921198923مقادیر مشخص hellip 119892119892119907119907ویژگی است بخش بندي کنیم119860119860119894119894 می تواند براي بخش بندي مجموعه

زیر مجموعه مورد استفاده قرار گیرد119907119907به 119863119863داده هاي

براي رسیدن به ) بخش مجزا119907119907به 119860119860119894119894با استفاده از ویژگی (میزان اطالعات مورد نیاز بعد از بخش بندي داده ها bullدسته بندي نهایی از رابطه زیر بدست می آید

bull

از رابطه زیر بدست می آید119860119860119894119894بدست آمده بوسیله انشعاب بر روي ویژگی IGبنابراین bull

119868119868119868119868 119860119860119894119894 = 119881119881119894119894119897119897119881119881 119863119863 minus 119881119881119894119894119897119897119881119881119860119860119894119894(119863119863)

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 100: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

پیش بینی خرید کامپیوتر توسط مشتریان مثالClass 1 YesClass 2 No

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 101: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

ادامه مثالاین عمل را براي ویژگی هاي دیگر

نیز انجام میدهیم

119868119868119868119868 119881119881119894119894119894119894119881119881119892119892119892119892 = 0029119868119868119868119868 119904119904119897119897119904119904119881119881119892119892119894119894119897119897 = 0151

119868119868119868119868 119894119894119888119888119892119892119881119881119881119881 minus 119888119888119892119892119897119897119881119881119894119894119892119892 = 0048

بدست می آورد ageرا ویژگی Information Gainبا توجه به مقادیر بدست آمده باالترین و بنابراین به عنوان ویژگی بخش بندي کننده داده ها انتخاب می شود

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 102: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

خروجی اولین مرحله

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 103: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

ادامه الگوریتم

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 104: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

براي مقادیر پیوسته Information Gainمحاسبه راي ویژگی مثال بجاي مقادیر گسسته ب یک ویژگی با مقدار پیوسته باشدAفرض کنید ویژگی bull

ageمقادیر واقعی سن افراد ذخیره شده باشدبراي را تعیین کنیم(Split Point)بهترین نقطه تقسیم باید Aمثل هاییبراي چنین ویژگی bull

این منظور مقادیرAرا به صورت صعودي مرتب می کنیمظر گرفته معموال نقطه وسط بین هر جفت مقادیر مجاور می تواند به عنوان نقطه تقسیم در ن

نقطه تقسیم می تواند ارزیابی شودv-1آنگاه Aمقدار براي vبا فرض شود مقدار نقطه تقسیم براي دو مقدار119892119892119894119894 و119892119892119894119894+1 از ویژگیAاز فرمول زیر بدست می آید

119892119892119894119894 + 119892119892119894119894+1

2

نقطه اي که کمترین میزان اطالعات مورد نیاز(Expected information requirement)را داشته باشد به عنوان نقطه تقسیم در نظر گرفته می شود

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 105: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

براي مقادیر پیوسته Information Gainمحاسبه تقسیم bull

bull1198631198631 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA در آنها کمتر یا مساوينقطه تقسیم است

bull1198631198632 مجموعه اي از رکورد ها در119863119863 است که مقدار ویژگیA از نقطه تقسیمبیشتر در آنهااست

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 106: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Bayesian Classifiersبیزیندسته بندي است که احتمال تعلق یک Statistical classifierاین روش یک روش دسته بندي آماري bull

رکورد داده اي را به یک کالس محاسبه می کند

بنا شده استبیزقضیه اساس این روش بر مبناي bull

ابل از لحاظ سرعت هم عملکرد ق این روش عملکرد قابل قبولی در مقایسه با بقیه روش ها داردbullقبولی دارد

شناخته می شودNaiumlve Bayes Classifierساده ترین مدل این روش بنام bull

قل است در این روش فرض می شود میزان تاثیر مقادیر یک ویژگی از مقادیر سایر ویژگی ها مستbullشناخته میشودClass Conditional Independenceکه این فرض با نام

این فرضیه باعث می شود که محاسبات کمتر شودbull

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 107: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

(Bayesian theory)بیزتئوري باشد) evidence(یک مشاهده xفرض کنید bull

با تعدادي ویژگی نشان داده می شودxمورد بررسی يدادهدر مجموعه bull

را نشان Cرا به یک کالس خاص مثل xیک فرضیه است که تعلق Hدر نظر بگیرید که bullمی دهد

Hرا داشته باشیم xیعنی اینکه اگر را بسنجیمP(H|x)براي اعمال دسته بندي نیاز داریم bull

درست است

در صورت دانستن ویژگی Cرا به کالس xدر واقع می خواهیم احتمال تعلق نمونه داده bullبسنجیمxهاي

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 108: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

را از روي داده هاي آموزشی می دانیم و به آنها 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullگویندPrior Probabilitiesاحتماالت پیشین یا

استHبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bullگویندLikelihoodاصطالحا

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 109: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

(Bayesian theory)بیزتئوري به این صورت استبیزفرمول bull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)

گویند Posterior Probabilityاحتمال پسین یا 119875119875(119867119867|119909119909)به bull

Priorرا از روي داده هاي آموزشی می دانیم و به آنها احتماالت پیشین یا 119875119875(119909119909)و 119875119875(119867119867)در مقابل مقادیر bullProbabilitiesگویند

گویندLikelihoodاست اصطالحا Hبه شرط در نظر گرفتن فرضیه xکه احتمال مشاهده نمونه 119875119875(119909119909|119867119867)به bull

داراي درآمد متوسط باشد چقدر xکامپیوتر خواهد خرید احتمال اینکه xاگر بدانیم که مشتري به عنوان مثالbullاست

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 110: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

بیزمثالی از تئوري و خشکی گردن را Hاگر مننژیت را مواقع باعث خشکی گردن می شود 50دکتر می داند که مننژیت در bull

x در نظر بگیریم داریم119875119875 119909119909 119867119867 = استlikelihoodکه همان 05

1فرض کنید احتمال اینکه یک بیمار مننژیت داشته باشد برابر bull50000

باشد

119875119875بنابر این 119867119867 = استPrior probabilityکه همان 000002

باشد بنابراین داریم 5فرض کنید احتمال اینکه یک بیمار خشکی گردن داشته باشد bull119875119875 119909119909 = 005

اگر بیماري داراي خشکی گردن باشد احتمال اینکه مننژیت داشته باشد چقدر است سوالbull

119875119875 119867119867 119909119909 =119875119875(119909119909|119867119867) times 119875119875(119867119867)

119875119875(119909119909)=

05 times 000002005

= 00002 = 002

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 111: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Naiumlve Bayes Classification119894119894مجموعه داده هاي آموزشی باشد که داراي مجموعه ویژگی هاي با تعداد Dفرض کنید bull

11986011986011198601198602ویژگی hellip 119860119860119899119899می باشد

11986211986211198621198622کالس با مقادیر 119892119892فرض کنید bull hellip 119862119862119898119898وجود دارد

119883119883با فرض وجود یک نمونه داده bull = (11990911990911199091199092 hellip 119909119909119899119899) می خواهیم کالسی را براي119883119883

را داشته (posterior probability)پیش بینی کنیم که بیشترین مقدار احتمال پسین باشد

متعلق به کالس 119883119883پیش بینی می کند که نمونه داده Naiumlve Bayes Classifierدر واقع bull119862119862119894119894 است اگر و فقط اگر

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 112: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Naiumlve Bayes Classificationبه کالسی را داشته باشد119875119875(119862119862119894119894|119883119883)ي هستیم که بیشترین مقدار 119862119862119894119894بنابر این ما به دنبال کالس bull

گویندMaximum posteriori hypothesisکه بیشترین مقدار احتمال پسین را داشته باشد

داریمبیزبر اساس تئوري bull

119875119875 119862119862119894119894 119883119883 =119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)

119875119875(119883119883)

بارت براي تمام کالس ها یکسان و ثابت است بنا بر این فقط مقدار ع119875119875(119883119883)با توجه به اینکه bull119875119875(119883119883|119862119862119894119894) times 119875119875(119862119862119894119894)باید ماکزیمم شود

خیلی هزینه بر است119875119875(119883119883|119862119862119894119894)اگر تعداد ویژگی هاي مجموعه داده ها زیاد باشد محاسبه bull

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 113: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Naiumlve Bayes Classification

ن فرض می کند که همه ویژگی ها مستقل از هم هستند بنابر ای Naiumlveبراي کاهش محاسبات bull

داریم

به راحتی از روي مجموعه داده هاي آموزشی 119875119875(119909119909119899119899|119862119862119894119894)تا 119875119875(1199091199091|119862119862119894119894)که مقادیر

(Training Set)قابل محاسبه هستند

است119883119883براي نمونه داده 119860119860119896119896معرف مقدار مربوط به ویژگی 119909119909119896119896 توجه

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 114: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Naiumlve Bayes Classificationبر اساس نوع ویژگی ها به صورت زیر عمل می کنیم119875119875(119883119883|119862119862119894119894)براي محاسبه bull

(a اگر119860119860119896119896 از نوع مقادیر گسسته و مجزا)Categorical ( باشد آنگاه119875119875(119909119909119896119896|119862119862119894119894) برابر است با تعدادهستند و مقدار ویژگی119862119862119894119894که داراي کالس 119863119863نمونه هاي مجموعه داده هاي آموزشی

119860119860119896119896 براي آنها برابر119909119909119896119896 که داراي کالس هاییاست تقسیم بر تعداد کل نمونه119862119862119894119894هستند

(b اگر119860119860119896119896ته معموال از یک یک مقدار پیوس نیاز به محاسبات بیشتري است] از نوع مقادیر پیوسته باشدپیروي می کند که با فرمول زیر تعریف می شود120590120590و انحراف معیار 120583120583با میانگین گوسیتوزیع

در نتیجه داریم

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 115: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Naiumlve Bayes Classifierمثال براي

در این مثال داریم

C1 = buys_computer = yes

C2 = buys_computer = no

می خواهیم براي نمونه داده زیر یک کالس

پیش بینی کنیم

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 116: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Naiumlve Bayes Classifierمثال براي

ها را محاسبه می کنیم119875119875(119862119862119894119894)ابتدا مقادیر

براي کالس هاي119875119875(119883119883|119862119862119894119894)براي محاسبه

احتماالت شرطی زیر باید محاسبه شود) i=12(2و1

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
Page 117: داده کاوی data Mining - hajmohamadi.irhajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf · Relational database, data warehouse, transactional database. Advanced

Naiumlve Bayes Classifierمثال براي

با توجه به مقادیر محاسبه شده داریم

و به صورت مشابه

119875119875(119883119883|119862119862119894119894)که مقدار 119883119883براي یافتن کالس مناسب براي times 119875119875(119862119862119894119894)را ماکزیمم می کند مقادیر زیر محاسبه می شوند

buys_computerپیش بینی 119883119883براي نمونه داده Naiumlve Bayes Classifierبنابراین = yesرا دارد

  • داده کاویdata Mining
  • معرفی درس
  • چرا داده کاوی از دیدگاه تجاری
  • چرا داده کاوی از دیدگاه علمی
  • Slide Number 5
  • کاوش مجموعه داده های بزرگ انگیزه
  • داده کاوی چیست
  • مراحل اکتشاف دانش
  • فرایند اکتشاف دانش از دیدگاه یادگیری ماشین و علم آمار
  • چه نوع داده هایی می تواند مورد کاوش قرار گیرد
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (تحلیل وابستگی و همبستگی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (طبقه بندی)
  • چه الگوهایی می تواند مورد کاوش قرار گیرد (خوشه بندی)
  • داده کاوی تلاقی علوم مختلف
  • چرا نیاز به علوم مختلف داریم
  • کاربردهای داده کاوی
  • کاوش الگوهای پر تکرار همبستگی و وابستگیمفاهیم اولیه و روشها
  • تحلیل الگو های پر تکرار چیست
  • آنالیز سبد خرید
  • آنالیز سبد خرید
  • مفاهیم اولیه الگو های پر تکرار (Frequent patterns)
  • الگوهای پر تکرار و قوانین وابستگی(انجمنی)
  • قوانین وابستگی
  • قوانین وابستگی
  • قوانین وابستگی (مثال)
  • Frequent Itemset Gneration
  • یک مشکل
  • Closed Frequent Itemset
  • Maximal Frequent Itemset
  • Slide Number 30
  • Slide Number 31
  • مثالی دیگر
  • روش های کاوش الگوهای پرتکرار
  • ویژگی Downward Closure
  • الگوریتم APRIORI
  • الگوریتم APRIORI(ادامه)
  • چگونگی ایجاد Lk بر اساس Lk-1
  • مثال1
  • مثال2
  • تولید قوانین وابستگی از روی الگوهای پر تکرار
  • مثال
  • بهبود الگوریتم Apriori
  • افزایش بهره وری الگوریتم Apriori
  • 1) استفاده از تابع در هم ساز
  • مثال
  • 2) کاهش تراکنش ها
  • الگوریتم FP-Growth
  • الگوریتم FP-Growth
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree
  • ساخت درخت FP-Tree (مثالی دیگر)
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • تولید الگوهای پر تکرار
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • الگوریتم استفاده از قالب داده های عمودی
  • تمرین
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • روش های ارزیابی قوانین وابستگی (انجمنی)
  • مفهوم استقلال آماری
  • معیار همبستگی Lift
  • معیار همبستگی Lift
  • Contingency Table
  • دسته بندی (طبقه بندی)Classification
  • دسته بندی چیست
  • چگونه دسته بندی انجام می شود
  • فاز اول Learning Step
  • فاز اول Learning Step
  • یادگیری با نظارت در مقابل یادگیری بدون نظارت
  • فاز اول Learning Step
  • فاز دوم Classification Step
  • مثال Training Step
  • مثال Test Step
  • درخت تصمیم Decision Tree
  • درخت تصمیم چگونه استفاده می شود
  • چرا درخت تصمیم محبوب است
  • مشکلات الگوریتم ایجاد درخت تصمیم
  • الگوریتم های ساخت درخت تصمیم
  • الگوریتم درخت تصمیم
  • الگوریتم درخت تصمیم
  • استنتاج بالا به پائین درخت تصمیمID3 (Iterative Dichotomiser 3)
  • معیار انتخاب ویژگی Information Gain (IG)
  • معیار انتخاب ویژگی Information Gain (IG)
  • مثال پیش بینی خرید کامپیوتر توسط مشتریان
  • ادامه مثال
  • خروجی اولین مرحله
  • ادامه الگوریتم
  • محاسبه Information Gain برای مقادیر پیوسته
  • محاسبه Information Gain برای مقادیر پیوسته
  • دسته بندی بیزین Bayesian Classifiers
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • تئوری بیز (Bayesian theory)
  • مثالی از تئوری بیز
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • Naiumlve Bayes Classification
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier
  • مثال برای Naiumlve Bayes Classifier