داده کاوی سئوالات نمونه

داده کاوی سئواالت نمونه

دکتر محمدحسین ندیمی

دانشکده مهندسی کامپیوتر

دانشگاه آزاد اسالمی واحد مجف آباد

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 2

سال • ماه مهر ترم کاوی داده درس دانشجویان 1392تالشآباد نجف واحد اسالمی آزاد دانشگاه کامپیوتر، مهندسی دانشکدهحداقل در سئواالت نمونه این اشکاالت که بوده این بر اینجانب وخواننده شما از و باشد نمی اشکال بی مطمئنآ ولی باشد ممکنگونه هر وجود شدن مطمئن صورت در که خواهشمندیم محترمشرح و داده یاری ما به آن، اصالح جهت به سئواالت، در اشکالآدرس به آن اسالید شماره ذکر با مذکوررا اشکال

.nadimi@ieee org . نمایید ارسالهیچگونه • بدون و فعلی صورت به اسالیدها این از استفاده امکان

. است آزاد عموم برای آنها در تغییری

سپاس باندیمی حسین محمد دکتر

آباد نجف واحد اسالمی آزاد دانشگاه کامپیوتر، مهندسی دانشکدهسال 7 ماه 1392دی

mailto:[email protected]

فصل دوم

پیش پـــردازش داده ها DATA PREPROCESSING

Data Mining

Sample Questions


: مراحل فرایند تبدیل داده ها را نام برده و توضیح دهید.1سوالجواب :

از داده بکار می Noise: که برای حذف ( Smoothingهموار سازی )• است.bining و Regression ,Clusteringرود و شامل تکنیک های

د راین روش عملیات خالصه صه سازی یا (: Aggregationتجمیع )•تجمیع داده ها اعمال می شود)جهت ساخت مکعب داده برای تجزیه و

تحلیل(

: داده ها با سطح پایین به داده ها با (Generalizationتعمیم داده ها )•سطح باالتر تبدیل می شوند.

: درجه بندی داده ها در یک محدوده (Normalizationنرمال سازی )•.1 تا 1خاص مثل -

: صفات جدید ایجاد و به مجموعه اضافه می ساخت صفت )جدید( •شوند.


: داده های زیر که شامل صفت سن می باشند مفروض است )صعودی(2سوال

13-15-16-16-19-20-20-21-22-22-25-25-25-25-30-33-33-35-35-35-36-40-45-46-52-70

- مد را مشخص کنید.نوع آن 2چیست؟

( دادها را مشخص midrange- مرکزیت دامنه )3کنید.

- میانگین داده ها را حساب کنید؟ میانه 1کدام است؟

چیست؟quantile با نمودار quantilt-quantile- تفاوت بین نمودار 6 عددی را ارائه دهید.5- خالصه سازی 5- چارک های اول)( و سوم )( را محاسبه کنید)تقریبی( .4

این مجموعه از داده ها دارای دو عدد است که بیشترین تعداد 35 و 25می باشد: bimodal را دارند بنابراین دارای

( : متوسط بزرگترین و کوچکترین midrangeمرکزیت دامنه ) است.35 و چارک سوم آن 20چارک اول آن مقدار در مجموعه است.

خالصه سازی پنج عددی شامل مقادیر : مینیمم مجموعه ، چارک اول ، میانه ، چارک سوم ، ماکزیمم می باشد که برای

این مثال به ترتیب عبارتند از : 13-20-25-35-70

Quantile نموداری است برای بررسی و ترسیم توزیع های تک نموداری است که دارای دو quantile-quantileمتغیری اما

متغییر است و برای بررسی تغییر در حرکت از یک توزیع به توزیع دیگر مورد استفاده قرار می گیرد.


آ ن ها bining : مجموعه داده های زیر ارائه شده است ، با استفاده از تکنیک 3سوال را در سه طبقه قرار داده و بر اساس مقدار میانگین و مرزهای پایین و باالیی در هر

طبقه ، آ ن ها را همو ار سازی کنید.

3 – 7 – 14- 18 – 23 – 25 – 31 – 42 – 47

Bin1 : 3 – 7 – 14 Bin2 : 18 – 23 – 25 Bin3 : 31 – 42 – 47

Bin1 : 8 – 8 – 8 Bin2 : 22 – 22 – 22 Bin3 : 40 – 40 – 40

Bin1 : 3 – 3 – 14 Bin2 : 18 – 25 – 25 Bin3 : 31 – 47 – 47


: ـشما ـبه عـنوان ـیک تحلـیل ـگر داده ـها در ـیک ـشرکت مـشغول ـبه ـکار می باـشید، 4سوال ـهزار رـکورد جهت تحلـیل و داده ـکاوی در اختـیار ـشما ـقرار 100مجموـعه داده ای ـشامل

در ـیک Missing Valueمی ـگیرد ، ـبا بررـسی داده ـها متوـجه می ـشوید ـکه داده ـها دارای Attribute ـضمنا ـخود این(.می باـشند Attribute رویـکرد 10 ـنیز دارای )کالس می باـشد

شما در مواجه با حل این مساله چیست ؟

ها- 1• تاپل گرفتن نادیدهآن- 2• برای ارزش ترین محتمل از استفادهبه – 3• متعلق های نمونه تمام برای صفات میانگین از استفاده

کالسسراسری – 4• ثابت یک از استفاده


مفروض است، با x={5.0,23.0,17.6,7.32,1.11} : مجموعه داده های یک بعدی 5سوال[ آن را نرمال سازی کنید.1,1 بر فاصله ]-Min-Maxاستفاده از نرمال سازی


: شما به عنوان یک تحلیل گر داده ها در یک شرکت مشغول به کار می باشید، 6سوال هزار رکورد جهت تحلیل و داده کاوی در اختیار شما قرار 100مجموعه داده ای شامل

در یک Missing Valueمی گیرد ، با بررسی داده ها متوجه می شوید که داده ها دارای Attribute ضمنا خود این(.می باشند Attribute رویکرد 2 نیز دارای )کالس می باشد

شما در مواجه با حل این مساله چیست ؟

- نادیده گرفتن تاپل ها 1•- استفاده از محتمل ترین ارزش برای آن2• – استفاده از میانگین صفات برای تمام نمونه های متعلق به 3•

کالس – استفاده از یک ثابت سراسری4•

فصل سوم

OLAP انباره ها و ، مکعب های داده

DATA WAREHOUSE


: داده انبار جامع تعریفیک انباره داده جمع آوری موضوع گرا ، یکپارچه ، متغیر بر اساس زمان و پایدار از داده ها است که امکان حمایت از فرآیند تصمیم گیری مدیران را

فراهم می کند.

( انباره داده را تعریف نمائید؟1سوال


تشریح( 2سوال را داده مکعب اجزاینمائید؟

یا Dimensionsابعاد

دیMدگاها یMا موجMودیت هMایی هسMتند کMه بMا توجMه بMا خواسMته هMای یMک سMازمان بMه عنوان رکورد نگهداری می شوند .

dimensionهر بعMد ممکن اسMت یMک جMدول مربMوط بMه خMود بMه نMام جMدول بعMد )table داشته باشد که این )

.بعد را بیشتر توصیف می کند

Factsحقایق یا •

حقMایق معیارهMای عMددی هسMتند کMه بMه منظMور تحلیMل روابMط بین ابعMاد بکMار گرفتMه می شوند.

( نشان داده می شوند.Fact tableو با یک جدول حقیقت )


نمونه اي از مكعب داده مجموع ساالنه فروش

زمانتلويزيون در آمريكا

ولص

مح

ورش

ك

مجموع

مجموع

تلويزيون

ويدئوكامپيوتر

بهار تابستان پائيز زمستان

آمريكا

كانادا

مكزيك

مجموع


( شماهای پایگاه داده چند بعدی را نام ببرید و با در نظر 3سوالگرفتن محیط عملیاتی یک فروشگاه قسمت فروش را با استفاده

از شماهای موجود پیاده سازی نمائید؟

Starشمای ستاره ای یا •Snowflakeشمای دانه برفی یا •Fact Constellationشمای صورت فلکی واقعی یا •


:Star schemaFact table :یک جدول مرکزی بزرگ که شامل مجموعه ای بدون افزونگی از دادهاست

Dimension table:.یک مجموعه جداول کوچکتر به ازای هر بعد

:Snowflake schema

است به طوریکه جداول بعد نرمال شده هستند.Starنوعی از مدل شمای این است که جداول بعد Snowfalke و Starتفاوت اصلی بین مدل های شمای

برای حذف افزونگی ها به شکل نرمال شده نگهداری می شوند.Snow flakeمدل این روش باعث کاهش افزونگی و همین طور کارآیی می شود.

:Fact Constellation schema

تشکیل شده است.Starاز مجموعه ای از شماهای برنامه های کاربردی پیچیده تر به چندین جدول حقیقت برای به

Fact Constellationیک شمای : اشتراک گذاری جداول بعد نیاز دارندرا میسر می استفاده اشتراکی جداول حقیقت از جداول بعد امکان سازد.


time_keydayday_of_the_weekmonthquarteryear

time

branch_keybranch_namebranch_type

branch

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales

Measures

item_keyitem_namebrandtypesupplier_type

item

location_keystreetcitystate_or_provincecountry

location

Star Schemaمدل



time


branch

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales

Measures

item_keyitem_namebrandtypesupplier_key

item

location_keystreetCity _key

location

City _keycityProvincecountry

city

Supplier_keysupplier_type

supplier

Sales Fact Table

snowflake schemaمدل



time


branch

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales

item_keyitem_namebrandtypesupplier_type

item

location_keystreetcityprovince_or_statecountry

location

time_key

item_key

shipper_key

from_location

to_location

dollars_cost

units_shipped

shipper_keyshipper_namelocation_keyshipper_type

shipper

FACT CONSTELLATION SCHEMAمدل

Measures


( سلسله مراتب مفهومی را توضیح دهید.4سوال

سلـسله ـمراتب مفـهومی دنباـله ای از نگاـشت ها را از مجموـعه ای ایین ـبه ـسطح ـباالتر ، ـکه مـفاهیم کلی ـتر اـست از مـفاهیم ـسطح ـپ

تعریف می کند.مثل: خیابان>شهر>استان یا ایالت>کشور


در مدل داده های چند بعدی را نام ببریدویکی از OLAP ( عملگرهای 5سوال .آنها را با رسم شکل تو ضیح دهید

•Roll Upتجمیع یا کاهش بعد : Drill Downافزایش بعد :

•Slice and Dice: selectionروی بعد •Pivotعملگر تجسم سازی :



را بیان کنید.OLAP( با SDB ( تفاوت پایگاه داده آماری )6سوال

ـبر کاربردـهای اجتـماعی و اقتـصادی متمرـکز SDB سیـستم ـهای -1ای ـه سیسـتم ه درحالیـک ای OLAPهسـتند کاربردـه رای ـب بیشـتر

تجاری هدف گیری میشوند.- مـسائل مرـبوط ـبه محرـماگی در سلـسله ـمراتب مفـهومی ـیک 2

موضوع مهم در سیستم پایگاه داده ی آماری است.تم 3 سیـس اری، آـم داده اه پایـگ ای ـه تم سیـس ر خالف ـب -OLAP

برای مدیریت کارآمد داده های حجیم طراحی می شود.


( چهار دیدگاه متفاوتی که در طراحی یک انبار داده وجود دارد 7سوال .را بیان نمایید

(Top-down view)دیدگاه باال به پایین•(Data source viewدیدگاه داده ای منبع)•(Data warehouse viewدیدگاه انبار داده)•(Business query viewدیدگاه پرس و جوی تجاری)•


( مراحل فرایند طراحی انباره های داده را بنویسید.8سوال

- انتخاب یک فرایند تجاری برای مدلسازی1- انتخاب دانه بندی فرایند تجاری2ال 3 اعـم دول حقیقت ـج از ورد رـک ر ـه روی ه ـک ادی ابـع اب انتـخ -

خواهد شد.انتـخاب معیارـهایی ـکه ـهر رـکورد در ـجدول حقیقت ـقرار می 4 -

گیرد.


( الیه های انبار داده در معماری سه الیه را بیان کنید.9سوال

- ـپایین ترین الـیه در معـماری انباره ـهای داده، ـسرویس دهـنده انـبار 1اه داده رابـطه ای پایـگ ا همیـشه ـیک سیـستم ـکه تقریـب داده اـست

است. ـمدل 2 اـست و ـبه OLAP- الـیه مـیانی ـکه ـیک ـسرویس دهـنده 2

تقسیم می شود.(ROLAP رابطه ای)OLAP. مدل 1(MOLAP چند بعدی)OLAP. مدل 2

- باالترین الیه که با کاربر در ارتباط است.3



( از نقطه نظر معماری چند مدل انبار داده وجود دارد، آن ها را 10سوال بیان کنید.

(:Enterprise warehouse- انبار داده تجاری)1همMه مMورد در اطالعMات همMه پرايMز اينMتر انبMار يك موضMوعات پوشMش دهنMده سMازمان را جمMع آوري مي كنMد. فMراهم در سMطحM شMرکت Mها يكپارچMه دادهM اي همچMنين و يMا عملMيMاتي چMنMد MسيسMتMم يMا يMك اMز xالMوMمعم كMه مMی آورد نMيز Mو مي آيMنMد MتMدس بMه خMارجي Mداده ی کننMده Mی فMراهMم داراي MعملكMرMد متقابMل در دMامنMه مي MباشMد. اينM نMوع انبMار داده MمعمMوالx حMاوي دادهM هMاي بMا جزئيMات وM دادMه هMاي MخالصMه مي باشMد و حجمM آن نMيز Mمي توانMد از MچنMد گيگابMاMيت تMا چMنMد

.MدMباش Mر نيزMفراتM ياM يتMاMرابMت، تMيMگاباMگي Mصد



(:Data Mart- انبار داده اختصاصی)2ديتامارت حاوي بخشي از داده هاي در سطح شرکت ها

مي باشد كه فقط براي گروه خاصي از كاربران اهميت دارند. دامنه محدود به موضوعات انتخاب شده و خاص

مي باشد.ديتامارت ها معموالx بر روي سرورهاي ارزان قيمت

ويندوزي يا لينوكسي / يونيكسي پياده سازي مي شوند. چرخه پياده سازي ديتامارت به طور معمول بر حسب

هفته اندازه گيري مي شود تا ماه يا سال اما پياده سازي ديتامارت مي تواند شامل يكپارچه سازي پيچيده

و با مدت زمان طوالني همراه باشد



(:Virtual Warehouse- انبار داده مجازی)3 ها كه بر روي پايگاه viewيك انبار مجازي مجموعه اي از

داده هاي عملياتي ساخته مي شوند مي باشد. براي ( فقط برخي queriesپردازش كارایي پرس و جوها )

view ساخته مي شوند. يك انبار xهاي خالصه واقعا مجازي به راحتي ساخته مي شود. اما فضاي زيادي را

بر روي ديتابيس عملياتي اشغال مي كند.


را بیان کنید.OLAP ( انواع سرویس دهنده های 11سوال

( ROLAP رابطه ای)OLAP- سرویس دهنده های 1(MOLAP چند بعدی)OLAP- سرور های 2(HOLAP ترکیبی)OLAP- سرویس دهنده های 3


( ابزارهای انبار کردن داده را نام ببریدوتوضیح دهید در یک 12سوال سیستم تصمیم گیری بورس از چه ابزاری و به چه دلیل استفاده می

شود؟

(access and retrieval tools- ابزارهای دستیابی و بازیاب)1داده ها)2 پایگاه از گیری گزارش ابزارهای -database

reporting tools)(data analysis tools- ابزارهای آنالیز داده)3(data mining tools- ابزارهای استخراج داده)4


( ابزارهای انبار کردن داده را نام ببریدوتوضیح دهید در یک 12سوال سیستم تصمیم گیری بورس از چه ابزاری و به چه دلیل استفاده می

شود؟

در ـیک سیـستم تـصمیم ـگیری ـبورس از اـبزار داده ـکاوی اـستفاده افتن ـ ـی ق طرـی از ـرا دانش کشـفـ اوی ـک دادهـ راـ زـی شـود مـی

ـالـگوـهـای پنـهان وـ ـانجمـنـ، ـسـاخت ـمـدل ـهاـی تحـلـیلی،ـ ـانـجاـم طبـقه ـا اـسـتـفاـدـه ـاـز ـاـبزاـرـهای ـنـتایـج ـکاـوش ـب ـهـ ـبـینیـ،ـ و ـاـراـئ بـنـدی ـو پـیشـ

تجسم،پشتیبانی می کند.


را بیان کنید.تفاوت بین انبار داده و دیتا مارت ( 13سوال

ار داده، اطالـعات مرـبوط ـبه موـضوعاتی ـکه ـکل ـسازمان را یک انـبپوـشش می دهـند را جـمع آوری می کـند اـما ـیک دیـتا ـمارت،ـیک بخش

ا ا ـم ار داده اـست. دیـت ه ای انـب ر مجموـع اب رزـی یا ء انتـخ ت روی اـش شــده تمرکــز می کنــد و در نتیجــه محــدوده ی آن، محــدوده شــعبه

است.

فصل چهارم

استخراج الگوهای پرتکرار، قوانین انجمنی و همبستگی ها

FREQUENT PATTERN MINING & ASSOCIATION RULE MINING

Data Mining

Sample Questions


(1سوال الف-پروسه استخراج قوانین انجمنی شامل چند مرحله میشود

نام ببرید؟ شامل دو مرحله

پیدا کردن تمام اقالم پرتکرارتولید قوانین انجمنی از اقالم پر تکرار

چیست ؟Aprioriب- خاصیت مهم الگوریتم همه ی زیر مجموعه های غیر تهی از اقالم تکراری باید تکراری باشند یا به عبارتی حتی اگر یک زیر مجموعه غیر تهی ازمجموعه ای ,غیر تکراری

باشد به طور حتم آن مجموعه تکراری نیست .

را نام ببرید.Aprioriج- دومشکل عمده الگوریتم .نیاز به تولید حجم زیادی از مجموعه های کاندید دارد نیاز دارد که به طور تکراری پایگاه داده را اسکن کند و مجموعه بزرگی از

کاندیدها را با الگوی تطبیقی بررسی کند.

( فرض کنید جدول زیر نشان دهنده مجموعه تراکنش های پایگاه داده باشد و2سوال min-sup=2و min-confidence=50% .

مطلوب است: را پیدا کنیدLمجموعه های کاندید و مجموعه های 1(یکی از قوانین انجمن استنباط شده از این پایگاه را بنویسید 2(و درمورد پذیرش یا عدم پذیرش این قانون بحث کنید....3(

TID ITEMS

100200300400500

A C EB C D EB C DB DC E


TID ITEMS

100200300400500

ABBBC

CCCDE

EDD

E

ITEMSET Sup.count

{A}{B}{C}{D}{E}

13433

ITEMSET

{B C}{B D}{B E}{C D}{C E}{D E}

ITEMSET

Sup.count

{B C}{B D}{B E}{C D}{C E}{D E}

231231

ITEMSET

Sup.count

{B C}{B D}{C D}{C E}

2323

ITEMSET

{B C D} ITEMSET Sup.count

{B C D} 2

ITEMSET

Sup.count

{B}{C}{D{{E}

3433

ITEMSET Sup.count

{B C D} 2

L2

C1

L1

C2 C2

C3 C3 L3

{B C D} {C D E}

Scan D for count of cach candidate

Compare candidate support count with min support count

Generate C2 candidates from L1



Generate C3 candidates from L2



Min_sup=2

{B C}{B D}{C D}

{C D} {C E} {D E} ×


تولید قوانین انجمنی از اقالم پر تکرار:

که زیر مجموعه های غیر تهی آن به شکل زیر می L= {B C D}فرض می کنیم باشد

{B} , {C} , {D} , {B C} , {B D} , {C D} , {B C D}

-minبه طور مثال یکی از قوانین به صورت زیر است که باید با توجه به شرط confidence=50%:بررسی کنیم که آیا این قانون پذیرفته است یا خیر

L= {B C D}S={B C}

B^C D

s L-s

confidence=support(B C D) / support (B C) =2/2=100 %

. است پذیرفته قانون این پس

Conf(A B)=sup (A B)/sup (A)

الگوریتم ( 3 عمده . Aprioriدومشکل بهبود برای تکنیک چهار سپس ببرید نام راالگوریتم ها Aprioriکارایی تکنیک این از کدام هر کنید ذکر و برده نام را

الگوریتم کارایی بهبود باعث .Aprioriچگونه میشوند

پاسخ:. دارد کاندید های مجموعه از زیادی حجم تولید به نیاز با را کاندیدها از بزرگی مجموعه و کند اسکن را داده پایگاه تکراری طور به که دارد نیاز

. کند بررسی تطبیقی الگوی

الگوریتم کارایی بهبود های :Aprioriتکنیک بر مبتنی hashتکنیک

کاندید مجموعه کاهش با

بندی پارتیشنداده پایگاه روی بر اسکن تعداد کاهش با

گیری نمونهداده پایگاه روی بر اسکن تعداد کاهش با

پویا اقالم محاسبهداده پایگاه روی بر اسکن تعداد کاهش با

تکنیک( 4 از استفاده با زیر داده پایگاه های تراکنش مجموعه تابع hashبرای وhash اینکه گرفتن نظر در با شده مجموعه min-sup=2داده است

کنید itemset-2کاندید پیدا را .ای

TID ITEMS

T1 1 4 5

T2 2 4 5

T3 1 2

T4 1 2 3

T5 2 3

h(x, y) = ((order of x) 10+(order of y)) mod 7

پاسخ:با کنیم می رسم جدولی تابع ) 7ابتدا چون باکت ( 7مد hashآدرس تابع آن از بعد است

hash تک تک برای آنرا itemset-2را آمده بدست عدد به توجه با و کرده محاسبه ها اییک که بار هر و میدهیم قرار باکت های آدرس از یکی باکتی itemset-2در ادرس به ای

. کنیم می اضافه یکی را ادرس آن به مربوط شمارنده میشود اضافهتابع مثال عنوان )hashبه برای ( 1 4را حاصلش که کنیم می میشود 0محاسبه

باکت ( 1 4بنابراین ) آدرس گیرد . 0در می قرار

h(x, y) = ((order of x) 10+(order of y)) mod 7

ادرس باکت

0 1 2 3 4 5 6

تعداد باکت

محتویات باکت

=(1*10 + 4) mod 7 =0

(1 4 ) (1 5 ) (4 5 )

1 1

(2 4 )

(2 5 )(4 5 )

(1 2 ) (1 3 )(2 3 )

(2 3 )

32 1 1 1

به توجه با های 2که min-supportحال باکت در اقالم نمی 6و4و1و 0است پرتکرارآنهادر بنابراین .C2باشند باشند نمی

(1 2 )

42

الگوریتم (5 کارایی بهبود منظور به بندی پارتیشن مختصرا Aprioriتکنیک راالگوریتم مشکل کدام دهید شرح و دهید کند؟ Aprioriتوضیح می حل را

پاسخ:الگوریتم در داده پایگاه مکرر اسکن به نیاز در . Aprioriمشکل میکند حل را

. میشود اسکن بار دو تنها داده پایگاه بندی پارتیشن تکنیک: است مرحله دو شامل بندی پارتیشن

: اول مرحلهدر, را ها تراکنش . nبه Dالگوریتم اگر کند می تقسیم هم از جدا پارتیشن تا

آستانه در supportحداقل ها تراکنش . min-supبرابر Dبرای آنگاه باشدتعداد آن ) supportحداقل در ها تراکنش تعداد با برابر پارتیشن یک برای

مقدار در ضرب .min-supپارتیشن بود( خواهد: دوم مرحلهدوم و Dاسکن میشود اقالم supportاجرا تعیین برای کاندید هر از واقعی

. تنظیم ها پارتیشن تعداد و پارتیشن اندازه شود می ارزیابی سراسری تکراریتنها بنابراین گیرد می جای اصلی حافظه در پارتیشن هر طوریکه به شوند می

. شود می خوانده مرحله هر در یکبار


پارتیشن بندی

تراکنش در Dها

تقسیم پارتیشن

D بهn پارتیشن

کردن پیدااقالم

تکراری در محلی

هر پارتیشن

1 اسکن

ترکیب اقالم همهتکراری به محلیاقالم فرمکاندید

کردن پیدااقالم

در تکراریبین

کاندیدها

اسکن 1

اقالم تکراری

Dدر

مرحله اول

مرحله دوم


قسمتهاي زير را انجام دهيد:min Sup=2 بروي پايگاه داده زير با (6سوال

( را بدست آوريد1 )آيتمهاي پرتكرار به طول Frequent 1-Itemsetالف( اين پايگاه را رسم كنيدFP tree ب(

Header(مربوط به آخرين آيتم پرتكرار موجود در conditional pattern-base ج(الگوهاي پايه مشروط )Table كه در قسمت قبل كشيده ايم (را بدست آوريد(

( كه به آخرين آيتم پرتكرار موجود ختم ميشود را بدست آوريد)روند بازگشتي FPد(الگوهاي پرتكراري) را دقيق نشان دهيد( FP growthالگوريتم

Items Bought TID

a ,b ,e T1

b,d T2

b,c T3

a ,b, d T4

a,c T5

b,c T6

a,c,d T7

a,b,c,e T8

a,b,c T9


( را بدست آوريد:1 )آيتمهاي پرتكرار به طول Frequent 1-Itemsetالف(

.a ابتدا براي اولين بار پايگاه داده اسكن كرده و تعداد تكرار هر آيتم را بدست مي(Itemset-1آوريم )

.b 1حاال آيتم هاي به طول(پرتكرار Frequent 1-Itemset را بدست مي آوريم يعني ) است حذف ميشوندmin-supشان كمتر از Cont supآيتم هايي كه مقدار

همه آيتم ها مساوي Con Sup ولي هيچكدام از آيتمهاي باال حذف نميشوند چون است.2ويا بشتر

Items Count Sup

a 6

b 7

c 6

d 3

e 2


( بFP tree:اين پايگاه را رسم كنيد را بدست مي آوريم)كه در قسمت الف بدست آورديم(1ابتدا آيتمهاي پرتكرار به طول

مرتب ميكنيم.L به صورت نزولي در ليست Cont Sup و سپس آيتم هاي پرتكرار را بر اساس مقدار L={(b:7) (a:6) (c:6) (d:3) (e:2)}

سپس با اسكن پايگاه داده براي بار دوم درخت را تشكيل ميدهيم:

Head Of Node-Link

Sup Count

Item ID

7 b

6 a

6 c

3 d

2 e

Header Table

Null

d:1

a:1

c:1

d:1

b :1

a:1

e:1 d:1 C:1

C:1

e:1

b :2b :3b :4b :5b :6 a:2

c:2C:2a:2a:3a:4

C:2

b :7


(مربوط به آخرين آيتم پرتكرار conditional pattern-baseج(الگوهاي پايه مشروط ))كه در قسمت قبل كشيده ايم (را بدست آوريد:Header Tableموجود در

است.e آيتم پرتكرار Headerآخرين آيتم در جدول ختم شده است.eتا مسير به آيتم 2

داريم:eتا الگوي پايه مشروط براي آيتم 2بنابراين Item e’s prefix paths : {<ba:1> , <bac:1>}

Head Of Node-Link

Sup Count

Item ID

7 b

6 a

6 c

3 d

2 e

Header Table

Null

d:1

a:2

c:2

d:1e:1 d:1 C:2

C:2

e:1

b :7

a:4


( كه به آخرين آيتم پرتكرار موجود ختم ميشود را بدست FPد(الگوهاي پرتكراري) را دقيق نشان دهيد( FP growthآوريد)روند بازگشتي الگوريتم

Frequent PatternsConditional pattern BaseConditional FP-treemined recursively

FP-Tree

e

bac:1Conditional FP-tree

Frequent pattern

ba:1Conditional pattern Base

mine(<b:2,a:2>|e>)

mined recursively

ae:2 be:2

nullb:2

<b:2>

bae:2

null

جدول در پرتكرار آيتم Header آخرينديديم كه .بود e همانطور

<b:2,a:2>

b=2a=2c=1

null

b:2

a:2e

e

null

b:2 ae

Frequen

t Pat

tern

s


Frequent PatternsConditional pattern BaseConditional FP-treemined recursively

FP-Tree

c

b:2

Conditional FP-tree

Frequent pattern

ba:2

Conditional pattern Base

mine(<b:4,a:2>,<a:2>|c>)

mined recursively

ac:4 bc:4

nullb:2

b:2

bac:2

null

<b:4,a:2>,<a:2>

a:2

d

b:1ba:1

<b:2,a:1>,<a:1>

ac:1

mine(<b:2,a:1>,<a:1>|d>)

ad:2 bd:2

nullb:1

b:1

bad:1

null

a

b:4

<b:4>

ba:4

null

Conditional pattern Base Conditional pattern Base

Conditional FP-tree Conditional FP-tree

mined recursively

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 50Frequent Pattern Generate

شد توليد شونده تكرار هالگوهايConditional FP-tree Conditional pattern Base

مشروط پايه الگوهايItemآيتم

Empty Empty Empty b

{(ba:4)} {(b:4)} a

{(ac:4),(bac:2),(bc:4)} {(ba:2),(b:2),(a:2)} c

{(ad:2),(bad:1),(bd:2)} {(ba:1),(b:1),(ac:1)} d

{(ae:2),(be:2),(bae:2)}{(ba:1),(bac:1)} e

) ( اند متصل هايمان آيتم به كه اند شده فرض شرطي هاي داده پايگاه از يكي گروه هر در پرتكرار ،آيتم رنگ بنفش هاي دايره

b:4

null

a

null

b:4

a:2c

c

a:2b=4a=4

b=2a=2c=1

null

b:2

a:1 d

d

a:1

b=2a=2c=1

null

b:2

a:2 e

e

c

d


را رفع Apriori چه هزينه هايي از الگوريتم FP growthالگوريتم ( 7سوال را به مختصر FP growthكرده، نام برده و چگونگي رفع آن توسط الگوريتم

توضيح دهيد.

هزينه اول:نياز به توليد حجم زيادي از مجموعه هاي كانديد دارد (،فقط آيتمهاي پرتكرار به FP با قرار دادن فاز اول)تشكيل درختFP growth الگوريتم

را توليد ميكند.1طول هزينه دوم: نياز دارد به طور تكراري پايگاه داده را اسكن كند

بار اسكن اين 2 با كاهش دادن اسكن مداوم پايگاه داده به FP growth كه الگوريتم هزينه را نيز كاهش داده است

براي پيدا كردن اقالم)الگوها(پرتكرار چندبار fp-growthالگوريتم ( 8سوال پايگاه داده را و هر بار براي چه كاري اسكن ميكند.

1بار پايگاه داده را اسكن ميكند،بار اول براي بدست آوردن آيتم هاي پرتكرار به طول 2 Frequent Pattern (FP tree)و بار دوم براي تشكيل درخت


از چه استراتژي استفاده كرده و فازهاي اين FP growthالگوريتم ( 9سوال الگوريتم و گامهاي هر فاز را نام برده و به مختصر توضيح دهيد.

فاز داريم :2از استراتژي تقسيم و غلبه استفاده ميكند، ( :Data Capturing by FP-tree فاز اول )

fp-tree يا frequent-patternآيتم هاي تكراري داخل پايگاه داده را در يك درخت فشرده ميكند تا اطالعات وابستگي اقالم را بدست آورد.

1:اولين اسكن پايگاه داده به منظور بدست آوردن آيتمهاي پرتكرار به طولگام اول به صورت نزولي مرتب ميكنيمL در ليست 1: آيتمهاي پرتكرار به طول گام دوم FP-Tree:دومين اسكن پايگاه داده براي تشكيل گام سوم

(:Tree Exploration / Tree Traverseفاز دوم ) پيمايش درخت براي استخراج الگوهاي پرتكرار توليد شده.

:پايگاه داده ي فشرده شده را به يك مجموعه از پايگاه داده هاي شرطي گام اولتقسيم ميكند

:الگوهاي پايه مشروط هر يك از آيتمهاي پرتكرار را بدست آوردهگام دوممشروط مربوط به الگوهاي پايه گام قبل را رسم كردهFP:درخت گام سوم

را صدا زده Mine:اگر درخت مشروط بيش از يك آيتم دارد تابع بازگشتي گام چهارمكه گام دوم و سوم به صورت بازگشتي اجرا ميشوند تا تمام الگوهاي پرتكرار بدست

آيند


FP growth در الگوريتم FPبرای آسان کردن پیمایش درخت ( 10سوال چه تعبيري پنداشته شده است؟

head of node-link آيتم ها، هر اشاره گر به آيتمي،با يك Header در جدول انجام ميشود.

كدام گزينه درست است: ( 11سوال است ولي ضامن كارايي باال نيستMining تسريع کننده در FP treeف( ال

نيستMining ضامن كارايي باال است ولي تسريع کننده در FP tree ب( است و نه ضامن كارايي باال Mining نه تسريع کننده در FP tree ج( است و هم ضامن كارايي باال Mining هم تسريع کننده در FP tree د(


در هر فاز چقدر است؟FP growthدرجه سختي الگوريتم ( 12سوال : چون دوبار اسكن FP(data capturing)درجه سختي فاز اول كه ساخت درخت

O(n) آن صرف نظر ميشود پس درجه سختي 2 ميباشد ولي از ضريب 2nداريم

در بدترين data capturing درجه سختي فاز دوم كه استخراج الگوهاي پرتكرار) (: ذاتا در آزمايشها نشان داده فوق العاده FP growth است ولي الگوريتم 2ⁿشرايط است ولي نميتوان گفت دقيقا چقدر)غير قابل محاسبه( ولي درجه 2ⁿكمتر از

است چون از ذات مسئله نشأت ميگيردO(2ⁿ)سختي مسئله همان

نام برده و به اختصار توضيح دهيد؟FP growthمشكالت الگوريتم ( 13سوال وريتم الـگ FP growth( ارايي ـك در efficiency/performance د ميكـن ل عـم وب ـخ ) الگوريتم است،كه به دو دسته زير تقسيم ميشود:Functionalityمشكل در ميباـشد مثال بـعد از اينـكه FP growth(:ـضعف عـمده الـگوريتم Incermental افزايـشي)

ار اـسكن ـشد و درخت 2پايـگاه داده ـما كاـمل تـشكيل ـشد بـخواهيم ـيك پايـگاه FPـبداده جدـيدي ـبا يكـسري تراكنـشها ـبه پايـگاه داده قبلي اـضافه ـكنيم)ـحتي اـضافه ـكردن

ـبار 2 از ابـتدا ـساخته ـشود،يـعني دوـباره پايـگاه داده را FPـيك ـتراكنش( باـيد درخت اسكن كنيم و هر بار اسكن اضافه هزينه زيادي بدنبال دارد

اـست ـكه زـماني ـخود را FP growth(: اـشكال ديـگري از الـگوريتم Interactive تـعاملي)نـشان ميدـهد ـكه ـبا تـعداد زـيادي ـكاربر روـبرو باـشيم،مثال زـماني ـكه ـبه عـنوان ـيك ـكاربر د نميتواـن ه ـك اربر،داده را ـك الـگوريتم اين ه در ـك نيم ـك ا را ـعوض پارامترـه ميـخواهيم

ـباز از اول FP اـست ـكه اـگر ـكاربر آن را ـعوض كـند درخت Min-supـعوض كـند تنـها اـسكن ديـگر از پايـگاه داده اـست، ـحاال تـصور ـشود 2باـيد ـساخته ـشود و اين مـستلزم

را چـندبار تغـيير دهـند،ـچه فاجـعه اي در Min-supميلـيون ـها ـكاربر هردفـعه اين مـقدار سرعت به بار مي آيد...


14سوال

پایگاه داده کتابفروشی ما بصورت مقابل است وMin-support، 50%است. آیتم های پرتکرار را

بیابید.eclat توسط الگوریتم


A: 1 3 4 5

C: 1 2 3 4 5 6

D: 2 4 5 6

T: 1 3 5 6

W: 1 2 3 4 5


A C D WT

AT AW CD CT CW DT DWADAC TW

ACT

ACD

ACW

ADT

ADW

ATW

CDT

CDW

CTW

DTW

ACDT

ACDW

ACTW

ADTW

CDTW

ACDTW


A

AT AWADAC

ACT

ACD

ACW

ADT

ADW

ATW

ACDT

ACDW

ACTW

ADTW

ACDTW

AC: 1,3,4,5AD: 4,5AT: 1,3,5AW: 1,3,4,5

Class A


AC

ACT

ACD

ACW

ACDT

ACDW

ACTW

ACDTW

ACD: 4,5ACT: 1,3,5ACW: 1,3,4,5

ACTW: 1,3,5

Class AC


AT

ATW

ATW: 1,3,5

Class AT


C

CD CT CW

CDT

CDW

CTW

CDTW

Class CCD: 2,4,5,6CT: 1,3,5,6CW: 1,2,3,4,5


CD

CDT

CDW

CDTW

Class CDCDT: 5,6CDW: 2,4,5


CT

CTW

Class CTCTW: 1,3,5


D

DT DW

DTWClass D DT: 5,6

DW:2,4,5


T

TWClass T TW: 1,3,5


A C D WT

AT AW CD CT CW DT DWADAC TW

ACT

ACD

ACW

ADT

ADW

ATW

CDT

CDW

CTW

DTW

ACDT

ACDW

ACTW

ADTW

CDTW

ACDTW


15سوال (

تراکنش های خرید از فروشگاه ALLElectronic.بدین صورت است Itemset های پرتکرار را با فرمت

عمودی داده بیابید.Min-support=2


T100,T400,T500,T700,T800,T900I1:

I2:T100,T200,T300,T400,T600,T800,T900

I3:T300,T500,T600,T700,T800,T900

I4: T200,T400

I5: T100,T800


I1,I2 T100,T400,T800,T900

I1,I3 T500,T700,T800,T900

I1,I4 T400

I1,I5 T100,T800

I2,I3 T300,T600,T800,T900

I2,I4 T200,T400

I2,I5 T100,T800

I3,I4

I3,I5 T800

I4,I5


I1,I2,I3 T800,T900

I1,I2,I5 T100,T800

Data mining , Dr.mohammad hossein nadimi,faculty of computer engineering.najafabad branch,Islamic Azad University


16سوال (

جدول مربوط به خرید بازی های کامپیوتری و فیلم ها بدین صورت

است. وlift، X2، cosineمعیارهای

all-confidence.را بیابید


Lift

= = 0.89

there is a negative correlation between the occurrence of game and video




all confidence

X = { game , video }


cosine

= 0.27

there is a negative correlation between the occurrence of game and video

فصل پنجم

طبقه بندی و پیش بینیCLASSIFICATION & PREDICTION

Data Mining

Sample Questions


Data set:1 زیر را در نظر بگیرید

outlook temperature humidity windy playovercast hot high FALSE yesovercast cool normal TRUE yesovercast mild high TRUE yesovercast hot normal FALSE yes

rainy mild high FALSE yesrainy cool normal FALSE yesrainy cool normal TRUE norainy mild normal FALSE yesrainy mild high TRUE nosunny hot high FALSE nosunny hot high TRUE nosunny mild high FALSE nosunny cool normal FALSE yessunny mild normal TRUE yes

Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 79 Information مفروض را به روش Data set درخت تصمیم

Gain1 ترسیم نمایید؟

Info outlook;(D) = 5/ 14 * (-2/ 5 * log (2 / 5) –3/ 5 * log (3 / 5) +4/14 *( -4/4 *log (4/4) – 0/4 *log(0/4) +

5/14 *(- 3/5 *log (3/5) – 2/5 *log(2/5) = 0.694 bitGain(outlook)= info(D) –info(age) = 0.940- 0.694 = 0.246 bitInfo humidity (D)= 7/14 *( -3/7 *log (3/7) – 4/7 *log(4/7) + 7/14 *( -6/7 *log (6/4) – 1/7 *log(1/7) =0.791 bitGain(humidity)= info(D) –info(humidity) = 0.940- 0.791 =0.149 bitInfo temperature (D)= 4/14 *( -2/4 *log (2/4) – 2/4 *log(2/4) + 6/14 *( -4/6 *log (4/6 ) – 2/6 *log(2/6) + 4/14 *( -3/4 *log (3/4) – 1/4 *log(1/4)=0.911Gain(temperature)= info(D) –info(temperature) = 0.940- 0.911 =0.029 bitInfo windy (D)= 8/14 *( -6/8 *log (6/8) – 2/8 *log(2/8) + 6/14 *( -3/6 *log (3/6) – 3/6 *log(3/6) =0.892 bitGain(windy)= info(D) –info(windy) = 0.940- 0.892 =0.049 bit

over

cast

sunny

rain

y

outlook

overcast hot high F Y

overcast coolnorma

l T Y

overcast mild high T Y

overcast hotnorma

l F Y

rainy mild high FALSE yesrainy cool normal FALSE yesrainy cool normal TRUE norainy mild normal FALSE yesrainy mild high TRUE no

sunny hot H F Nsunny hot H T Nsunny mild H F Nsunny cool N F Ysunny mild N T Y


ادامه 1

Info(D1)= -2/5 *log(2/5) - (3/5)* log(3/5) = 0.971 bit

Info temperature (D1)= 2/5 *( - 0/2 *log (0/2) – 2/2 *log(2/2)) + 2/5 *( - 1/2 *log (1/2)) - 1/2 *log (1/2) ) + 1/5 *(- 1/1 *log (1/1) )= 0.571 bitGain(temperature)= info(D1) –info(temperature) = 0.971 - 0.4 =0.571 bit

Info humidity(D1)= 3/5 *( - 0/3 *log (0/3) – 3/3 *log(3/3)) + 2/5 *( - 2/2 *log (2/2)) = 0 bitGain(humidity)= info(D1) –info(humidity) = 0.971 - 0 =0. 971 bit

Info windy (D1)= 3/5 *( - 1/3 *log (1/3) – 2/3 *log(2/3) )+ 2/5 *( - 1/2 *log (1/2) - 1/2 *log (1/2) ) = 0.868 bitGain(windy)= info(D1) –info(windy) = 0.971 – 0.868 =0. 072 bit

Info(D2)= -3/5 *log(3/5) - (2/5)* log(2/5) = 0.971 bit

Info temperature (D2)= 3/5 *( - 2/3 *log (2/3) – 1/3 *log(1/3)) + 2/5 *( - 1/2 *log (1/2)) - 1/2 *log (1/2) )= 0.951 bitGain(temperature )= info(D2) –info(temperature ) = 0.971 - 0.951 =0.020 bit

Info humidity(D2)= 3/5 *( - 2/3 *log (2/3) – 1/3 *log(1/3)) + 2/5 *( - 1/2 *log (1/2)) - 1/2 *log (1/2) )= 0.951 bitGain(humidity)= info(D2) –info(humidity) = 0.971 - 0.951 =0.020 bit

Info windy(D2)= 3/5 *( -3/3 *log (3/3) – 0/3 *log(0/3)) + 2/5 *( - 0/2 *log (0/2)) - 2/2 *log (2/2) )= 0bitGain(windy)= info(D2) –info(windy) = 0.971 - 0 = 0.971 bit

Info(D3)= -4/4 *log(4/4) - (0/4)* log(0/4) = 0 bit


ادامه 1

outlook

yes no

no (2) yes (3)

truefalse

Yes (4)no (3) yes (2)

humidity windy

over

cast

sunny rainy

Data m

ining


Class

ifica

tio

n Pr

edi

ctio

nAn

d

Gini index مفروض را به روش Data set درخت تصمیم ترسیم نمایید؟

2

Outlook={overcast, rainy, sunny}Gini outlook ε (overcast, rainy)=(9/14) Gini (D1)+(5/14)Gini(D2)=(10/14)*0.45+(4/14)*0.48=0.712

Gini(D1)=(1-(7/9)^2 –(2/9) ^2)=0.45Gini(D1)=(1-(2/5)^2 –(3/5) ^2)=0.48 Gini outlook ε (overcast,sunny)= (9/14)*0.468+(5/14)*0.445=0.717Gini outlook ε (rainy, sunny)=(10/14)*0.480+(4/14)*0.376=0.357

Temperature={hot,mild,cool}Gini temperature ε (hot,mild)=(10/14)*0.444+(4/14)*0.48=0.457

Gini temperature ε (hot,cool)=(8/14)*0.47+(6/14)*0.44=0.458

Gini temperature ε (mild,cool)=(10/14)*0.197+(4/14)*0.2=0.198

Data m

ining


Class

ifica

tio

n Pr

edi

ctio

nAn

d

Gini index مفروض را به روش Data set درخت تصمیم ترسیم نمایید؟

2

outlook

yes no

No (2)

yes (3)

truefalse

Yes (4)

no (3)

yes (2)

humidity windy

over

cast

sunnyrainy

humidity={high, normal}Gini humidy ε (high,normal)= (7/14)*0.245+(7/14)*0.490=0.368

Gini(D1)=(1-(7/10)^2 –(3/10) ^2)=0.420Gini(D1)=(1-(2/4)^2 –(2/4) ^2)=0.5 Gini windyε (false,true)= (8/14)*0.375+(6/14)*0.5=0.429


Gain Ratio مفروض را به روشData set درخت تصمیم ترسیم نمایید؟

3

splitInfo A (temperature)= - 4 /14 * log (4 /14) -6 /14 * log (6 /14) -4 /14 * log (4 /14) = 1.556 Gain Ratio(temperature)=0.029 / 1.556= 0.019

splitInfo A (outlook)= - 5 /14 * log (5 /14) - 4 /14 * log (4 /14) - 5 /14 * log (5 /14) = 1.578 Gain Ratio (outlook)=0.246 / 1.578= 0.156

splitInfo A (humidity)= - 7 /14 * log (7/14) - 7 /14 * log (7 /14) = 1Gain Ratio(humidity )=0.15 / 1= 0.15

splitInfo A (windy)= - 6 /14 * log (6 /14) - 8 /14 * log (8 /14)= 0.985 Gain Ratio(windy )=0.048 / 0.985= 0.049

outlook

yes no

no (2) yes (3)

true

false

Yes (4)no (3) yes (2)

humidity windy

over

cast

sunny rainy


جدول زیر را در نظر بگیرید: 4

Predicted class totalbuy_computer = yes

buy_computer = no

buy_computer = yes 6954 46 7000

buy_computer = no 412 2588 3000

total 7366 2634 10000

چه در صدی از پیش بینی ها ی شما صحیحاست؟

چه درصدی از نمونه های مثبت تشخیص دادهشده اند؟

چه در صدی از پیش بینی های مثبت صحیحمی باشند؟

Accuracy=(2588+6954)/10000 =95.42%

Recall =6954/(7000)=99.34%

Precision = 6954 / 7366=94.41%

Han/Kamber/Pei, Tan/Steinbach/Kumar, and Andrew Mooreمنبع سوال


فرضیات زیر را در نظر بگیرید و پارامترهای ارزیابی طبقه کننده را محاسبه نمایید؟ 5

• A dataset contains 80 records on a particular topic

A search was conducted on that topics and 60 records were retrieved.Of the 60 records retrieved, 45 were relevant.

Precision? Recall?

A=45 B(FN) : (80-45) =35 C: (60-45)=15

Recall = (45 /(45+35)) * 100 =56%

Precision= (45/ (45+15)) * 100= 75 %


با توجه به مجموعه آموزشی داده شده: پیش بینی کنید آیا فرد تعیین Naive Baysian با استفاده از طبقه بندی الف-

(income = 50,000$ =mediumشده کامپیوتر خواهد خرید؟) تغییر یابد در پیش بینی چه low به income مقدار 7اگردر تاپل شماره ب-

مشکلی ایجاد خواهد شد چه راهکاری را پیشنهاد می دهید؟

6


Buys Comput

er

Creditrating

Student

Income Age Stno

Yes Fair Yes Medium 35 1

No Average No High 30 2

Yes Good Yes low 40 3

Yes Fair No Medium 35 4

Yes Fair No Low 45 5

Yes Excellent No High 35 6

No Good No Medium 35 7

No Good No Low 35 8

No Average No High 28 9

Yes Average Yes Medium 35 10

- الف کنیم جواب بندی طبقه خواهیم می که تاپلی: از است عبارت

X=(age=35 ,income=medium) x1 x2

کالس چسب بر مجزا buys_computerصفت مقدار ( yes , no)دو

M=2 ,i=1,2

i=1

i=2

C1=buys_computrt =yes

C2=buys_computrt =no

P(X|C1 )P(C1)

P(X|C2 )P(C2)

P(X|Ci )P(Ci)


P(X|C1 )P(C1)

P(C1) =P(buys_computer= yes)=6/10=0/6

P(X|C1 ) = P(age=35 | buys_computer= yes)*

P(income=medium | buys_computer= yes) =4/6(0.67) * 3/6(0.5) =0.335

0.335 * 0.6 = 0.201


P(X|C2 )P(C2)

P(C2)=P(buys_computer= NO)= 4/10=0.4

P(X|C2 )= P(age=35 |buys_computer= NO) P(income=medium|buys_computer= NO)

=2/4(0.5) * 1/4(0.25)=0.125

=

بنابراین چون buys_copmuter =yes ،Naive bayesian را برای تاپل طبقه بندی کننده

Xپیش بینی می کند

0.125* 0.4=0.05

0.05<0.20


با احتمال صفر روبرو می شویم بله :جواب ب

P(income=medium|buys_computer= NO) = 0/4=0

از اصطالح الپالسین استفاده می کنیم و وانمود می کنیم یک تاپل اتفاق افتاده است incomeبیشتر برای هر مقدار


می تواند هم Drewپایگاه داده کوچک زیر داده شده است با توجه به اینکه Male و Fmale باشد جنسیت افسر Drew.را پیش بینی کنید

7


داده شMده اسMت مطلMوب اسMت WeatherتاپMل هMایی از مجموعMه آموزشMی :

الMف- در طبقMه بنMدی مبMنی بMر قMانون پMارامتر هMای ارزیMابی قMانون را توضیح دهید

بدست آورید.R1ب – مقدار این پارامتر ها را برای قانون R1: If outlook =sunny and wind = light then playTennis =No

7


ارزیابی می پوشش و صحت لف: هر قانون با اشود

Coverage قسمتی از رکوردها که مقدم یک - قانون را ارضا میکند.

Accuracy قسمتی از رکوردها که هر دوی مقدم -و تالی یک قانون راارضا میکند.

𝒏𝒄𝒐𝒗𝒆𝒓𝒔¿𝑫∨¿¿

𝒏𝒄𝒐𝒓𝒓𝒆𝒄𝒕𝒏𝒄𝒐𝒗𝒆𝒓𝒔

Coverage(R ) =

Accuracy( R) =

=3/14=%0.21

=2/3=%0.67


:ویژگی های الگوریتم پوششی سری را بیان کنید

به طور مستقیم از داده آموزشی استخراج IF-THEN-قوانین 1می شود.

-بیشتر برای الگوی استخراج مجموعه های منفصل از قوانین 2طبقه بندی استفاده می شود.

-قوانین طبقه بندی با استفاده از الگوریتم های طبقه بندی 3انجمنی تولید می شوند.

-جفت های صفت-مقداری که به طور فراوان در داده اتفاق می 4افتند را جستجو می کند.

8


ویژگی باشد ارتفاع درخت تصمیم حداکثر چقدر خواهد بود؟با ذکر mاگرمسأله ما دارای یک مثال توضیح دهید:

ژگی وـی ک ـی ود ـخ آن ه ـک اـست ریـشه ک ـی دارای تـصمیم درخت اـست،در ـسئوال از آن وـیژگی ـبه پاـسخی می رـسیم ـکه آن ـخود

خواهد بود.mنیز ویژگی است پس حداکثر ارتفاع درخت باشیم داشته اگر مثال عنوان -IF…Then loanبه

desician=acceptـکه قـسمت IF خالی اـست ـکه میـتوان ـهرجفت و...income=highصفت-مقدار برای آن درنظر گرفت مثأل

RID incom Loan-desician age Loan-term

1 high yes youth long

2 medium no senior short

3 excellent yes middle short

4 low no youth long

9


: با توجه به جدول میتوان درخت تصمیم زیر را 2ادامه جواب سوال ارتفاع درخت خواهد بود.mرسم کرد که حداکثر


-معیارهای ارزیابی قانون را نام برده و مختصرا توضیح دید.3

-معیار آنتروپی:آنتروپی شرایطی را ترجیح میدهد که تعداد 1زیادی از تاپلهای فقط یک کالس و تعداد کمی از تاپلهای کالسهای

دیگر را بپوشاند.:تاپلهای کالس FOIL در Information gain-معیاری مبنی بر 2

می نامیم positiveبرای قوانینی که آموخته می شوند را تاپلهای می باشند.negativeو تاپلهای باقیمانده را

:به یک همبستگی واقعی بین کالس ها statistical test-معیار 3ومقادیر صفت اشاره میکند.

10


ازسیستم اطالعاتی X برای مجموعه Roughبا استفاده ازالگوی مجموعه را به دست آورید:BX,BX,BNXزیرومشخص بودن پارامترهای آن مقادیر

IS=(U,A)

U={x1,x2,x3,x4,x5,x6….., x10}

A={a1,a2,a3}

v1={1,2,3}

v2={1,2}

v3={1,2,3,4}

X={x1,x3,x4,x5,x9}

11


11جواب سوال :

U a1 a2 a3

X1 2 1 3

X2 3 2 1

X3 2 1 3

X4 2 2 3

X5 1 1 4

X6 1 1 2

X7 3 2 1

X8 1 1 4

X9 2 1 3

X10 3 2 1

U/A a1 a2 a3

{X1,X3,X9} 2 1 3

{X2,X7,X10

}3 2 1

{X4} 2 2 3

{X5,X8} 1 1 4

{X6} 1 1 2


11ادامه جواب سوال :

شامل تمام تاپلهای داده ای می شود Cتقریب پایینی Cکه با توجه به اطالعات آن صفات حتما متعلق به

هستند بدون هیچ ابهامی

BX={X1,X3,X4,X9}


11دامه جواب سوال ا :

شامل تمام تاپلهای داده ای میشود که Cتقریب باالیی براساس اطالعات آن صفات،نمی توانند به عنوان

توصیف شوند.Cمتعلقات

BX={X1,X3,X4,X5,X8,X9}

مرز بین تقریب پایین وباال:BNX={X5,X8}


اطالعات بیشتر:


:ویژگی های الگوی مجموعه فازی را بیان کنید

.برای صفاتی با مقادیر گسسته و پیوسته به کار میرود-12- برای نمایش درجه 1و0منطق فازی از مقادیر حقیقی بین

عضویتی که یک مقدار مشخص در یک گروه داده شده استفاده .میکند

از ابزارهای گرافیکی برای کمک به کاربران در تبدیل مقادیر -3.صفت به مقادیر حقیقی فازی استفاده میکند

.اجازه می دهد در سطح باالیی از انتزاع کار کنیم-4قسمت بلوک 2-قوانین زبان شناختی ،سیستم کنترل شامل 5

(میباشد.Then( ویک بلوک تالی )بعد از Then وIFمقدم )بین

12


مهمترین مزایا و معایب شبکه های عصبی درطبقه بندی را بیان کنید؟

:مزایای شبکه های عصبی پیش بینی باالدقت1. هایی error بودن )هنگامی که مثال های آموزشی شامل قوی 2.

هستند،کار می کنند(قابلیت مواجه با داده های مغشوش3.قابلیت استفاده زمانی که دانش بسیار کمی در مورد مسئله وجود دارد4. مناسب استکیفی و کمیبرای هر دو نوع داده 5.در مسائلی که دانش کمی در مورد مسئله داشته باشیم کاربرد دارد.6.

معایب شبکه های عصبی :طوالنی. زمان آموزش 1 استحساس. آموزش این شبکه ها 2 استدشوار. درک تابع یادگیرنده 3. مانند جعبه سیاه عمل می کند4

13


یکی از الگوریتم یادگیری شبکه عصبی را،با ذکر علتانتخاب آن نام ببرید و توضیح دهید چگونه کار می کند؟

بر Back propagationالگوریتم زیرا خطا انتشار پس الگوریتم یاخطا اساس و کاهش است گرفته شکل نظارتی بصورت و

شما که ها موقعی کالس و صفات بین روابط از کمی دارید دانش. شود می استفاده

الگوریتم پس انتشار خطا چگونه کار می کند؟

چند feed-forward یادگیری را روی یک شبکه عصبی Back propagationالگوریتم

وزن ها در شبکه با کوچکترین اعداد در این الگوریتم ، الیه ای انجام می دهد.

تصادفی مقدار دهی اولیه می شوند.در واقع بر اساس وزنهای تصادفی یک پاسخ

توسط شبکه تولید می شود و در یک فرآیند تکراری میزان خطای میان خروجی

شبکه با مقادیر واقعی بر اساس تغییر وزنها کاهش می یابد

و می تواند برای داده های شبکه توسط داده ها آموزش داده شده در حقیقت

جدید،همان الگوی قبلی را ارائه دهد

14


شکل زیر یک شبکه عصبیFeed-Forward چند الیه ای را نشان می دهد.الگوریتم پس انتشار خطا را تا یک مرحله

انجام دهید و مقادیر جدید وزن اتصاالت هر واحد را بدست (0.9آورید؟)نرخ یادگیری=

15


w14*o1 + w24*o2+w34*o3 + θ4 w15*o1 + w25*o2+w35*o3 + θ5 w46*o4 + w54*o5+ θ6

O6 * (1-O6) (T6-O6)

O5 * (1-O5) (ERR6 * W56)

O4 * (1-O4) (ERR6 * W46)



W46 + L *ERR6 * O4

W56 + L *ERR6 * O5

θ6 + L *ERR6



سه الگوریتم اصلی در طبقه بندی انجمنی را نامببرید و تفاوت هرکدام را شرح دهید:

(1CPAR(Classification Based On Association Rules)(2CMAR(Classification Based On Multiple Association Rules)(3CBA(Classification-Based Association)

استفاده قوانین چندگانه از CMAR این است که CMAR وCBAتفاوت اصلی CBA نسبت به دقت از نظر CMARمی کند و نتایج تجربی نشان می دهد که

بهتر عمل می کند. در CMARوCBA بزرگ استفاده می کنیم دو الگوریتم Data Setولی وقتی از

CPARهستند و بهتر است از تولید قوانین و انتخاب قوانین زمان بر زمینه های برای غلبه بر این مشکل استفاده شود.

CPAR:دقت و کارایی بیشتر نسبت به بقیه الگوریتم ها دارد زیرا .I جهت پرهیز از تکرار محاسبات در تولید برنامه نویسی پویا استفاده از

قانون.IICPAR تولید مجموعه کوچکتری از قوانین با کیفیت باالتر و افزونگی کمتر

می کند.

16


با استفاده از الگوریتمRule Generation in Cpar و با درنظر گرفتن جدول زیر چه قوانینی تولید خواهد شد؟

را انتخاب کنید(A1=2)ابتدا قانون

اولیه قوانین شده تولید های لیترال

1 A1=2 A2=1A3=1

2 A2=1 A4=1

3 A3=1 A4=2A2=1

4 A4=2 A2=3

Gain دارای)(مشابه

Gain دارای)(مشابه

17



Row-ID A B C D Class Label01 a1 b1 c1 d1 A

02 a1 b2 c1 d2 B

03 a2 b3 c2 d3 A

04 a1 b2 c3 d3 C

05 a1 b2 c1 d3 C

1با توجه به مجموعه داده آموزشی نشان داده شده در جدول (min support=2,confidence=50 توسط الگوریتم )% CMAR چه قانونی

تولید می شود؟

18


}ترسیم a1,b2,c1,d3 را بر اساس لیست نزولی {FP-Growthابتدا درختمی کنیم.

هستند شامل:d3با توجه به درخت رسم شده قوانین تاپل هایی که دارای ( FP-tree( a)شکل )(a1,b2,c1,d3:)C – (a1,b2,d3):C - d3:A

آیتم های پرتکرار هستند.بنابراین a1b2 هستند d3که در تاپل هایی که شامل را تولید کرد. a1b2d3 Cمی توان قانون

با نودهای پدرشان ادغام می شوند و اطالعات برچسب d3تمام نودهای دارای d3کالس های نود

در نود والد نوشته می شوند

فصل ششم

آنالیز خوشه هاCLUSTER ANALYSIS

Data Mining

Sample Questions


( چه تفاوتی بین خوشه بندی و طبقه بندی وجود دارد؟1سوال

در طبقه بندي هر داده به يک طبقه )کالس( از پيشين مشخص شده تخصيص مي يابد ولي در خوشه بندي هيچ اطالعي از کالسهاي

موجود درون داده ها وجود ندارد و به عبارتي خود خوشه ها نيز از .داده ها استخراج مي شوند


براساس فاصله Dissimilarity Matrixزیر Data Matrix ( با توجه به 2سوال اقلیدسی و مان هاتان بدست آورید.

Dissimilarity Matrix )with Euclidean Distance(

Data Matrix

Dissimilarity Matrix )with Manhattan(

x4 x3 x2 x1 L

0 x1

0 5 x2

0 6 3 x3

0 7 1 6 x4

x4 x3 x2 x1 L

0 x1

0 3.61 x2

0 5.1 2.24 x3

0 5.39 1 4.24 x4

Attribute2 Attribute1 Point

2 1 x1

5 3 x2

0 2 x3

5 4 x4


( فرض کنید جدول زیر شامل رکورد های بیماران باشد:3سوال بر اساس داده های باینری، عدم تشابه بیماری بیماران را مشخص کنید؟

متغیرName.تعریف کننده اشیا است متغیرgenderارن است.ق یک متغیر مت.دیگر متغیر ها نیز متغیر های دودویی نامتقارن هسستند برای متغیر های نامتفارنY( برای حالت هایYes و )P( برایPositiveو برابر )است.1 برای متغیر های نامتفارنN( برای حالت هایNo -negativeو برابر )است.0 محاسبه تنها بر اساس متغیر های نامتقارن فرض می کنیم فاصله بین اشیا یا تفاوت بین انها هم

می شود.


i j

ij

i j

i

j

با توجه به نتایج فوق می توانیم پیشنهاد کنیم که :Mary و Jim به بیماری مشابهی مبتال نیستند به دلیل که بیشترین

تفاوت را باهم دارند.Maryو Jack به دلیل داشتن فاصله کم ممکن است که به بیماری

مشابه مبتال باشند.


ا ـهر مـقدار گام اول: ـم test-2اـگر 4 ان ـجایگزین ـکنیم،ـبرای rankرا در

اـعداد ترتیب ـب اختـصاص 3،1،2،3ـشی داده می شود.

،گام دوم: ده قاـع اـساس ر rankـببین د و 0.0باـی شـود: 1.0 نگاشـت

0.0=1و 1.0 =3و 0.5=2

ما می توانیم بر اساس رابطه فاصله اقلیدس ،ماتریس عدم تشابه گام سوم:

به صورت زیر نتیجه می شود.

312

3

1.0

0.00.51.0

𝑑 (4 ,2 )=√(1 .0−0 .0)2=1.0

=0.0 =0.5 3 . =1.0

بر اساس داده های ترتیبی جدول زیربا استفاده از فاصله اقلیدس ،ماتریس عدم ( 4 سوال تشابه اشیا را بدست آورید.


.در این روش از تبدیالت لگاریتمی استفاده می کنیم

Log(445)=2.65

Log(22)=1.34

Log(164)=2.21Log(1,210)=3.08

𝒅 (𝟑 ,𝟐 )=√(𝟐 .𝟐𝟏−𝟏 .𝟑𝟒 )𝟐=𝟎 .𝟖𝟕

جدول زیربا استفاده ratio-Scaledبر اساس داده های ( 5سوال از فاصله اقلیدس ،ماتریس عدم تشابه اشیا را بدست آورید.


را test-3لگاریتم مقادیر تبدیالتگام اول:

محاسبه می کنیم.

Log(445)=2.65

Log(22)=1.34

Log(164)=2.21Log(1,210)=3.08

مقدار های را محاسبه می کنیم. گام دوم:

𝒎𝒂𝒙𝒉 𝒙𝒉

𝒎𝒊𝒏𝒉𝒙𝒉

نرـمال ـکردن مـقادیر در ـیک ـماتریس ـعدم تـشابه براـساس رابـطه اقلیدـسی ترکـیبی ـبرای سMوم:گام test-3:نشان می دهیم

𝒅❑( 𝒇 )

𝟐𝟏❑ =¿𝟏 .𝟑𝟒−𝟐 .𝟔𝟓∨ ¿

𝟏 .𝟕𝟒=𝟎 .𝟕𝟓¿

ماتریس عدم تشابه گام چهارم: را برای 7.15را بر اساس رابطه

متغیر به صورت زیر محاسبه 3(p=3می کنیم: )

=0.92

( بر اساس داده های ترکیبی جدول زیر،ماتریس عدم تشابه اشیا 6سوال را بدست آورید


m1=3 , m2=4

mean 2انتخاب تصادفی

K1={2,3} m1=(2+3)/2=2.5

5 10 15 20 25 30 350

2 101112 20 25 303

K2={4,10,12,20,30,11,25} m2=16

5 10 15 20 25 30 350

2 101112 20 25 303 44

K1={2,3,4} m1=3 K2={10,12,20,30,11,25} m2=18

5 10 15 20 25 30 350

2 101112 20 25 303

K=2 ، m1=3 ، m2=4 را با فرض K-means ( الگوریتم 7سوال اعمال کنید :P={2,4,10,12,3,20,30,11,25}بروی مجموعه اشیا

K1={2,3,4,10} m1=4.75 K2={12,20,30,11,25} m2=19.5

5 10 15 20 25 30 350

2 101112 20 25 303

K1={2,3,4,10,11,12} m1=7 K2={20,30,25} m2=25

5 10 15 20 25 30 350

2 101112 20 25 303


Single Linkage

Complete Linkage

Average Linkage

( معیار هایی که به طور گسترده جهت اندازه گیری 8سوال

Hierarchicalفاصله و میزان شباهت دو کالستر در الگوریتم

بکار می روند را توضیح دهید :


باشد :C1={(2,5), (3,2), (4,3)} ( اگر کالستر9سوال

ایجاد کنید :BIRCH را توسط الگوریتم CF1الف (

که از ادغام CF2=<3, (35, 36), (417, 440)> ، CF3ب ( با فرض

بدست می آید را ایجاد کنید :C2 و C1دو کالستر

به صورت زیر خواهد بود : CF3 ایجاد شود ، بنابراین C1 و C2 از ادغامC3اگر

<CF1= <3, (2+3+4,5+2+3),(22+32+42,52+22+32)> = <3,(9,10), (29,38) الف)

<CF3 or CF12 = < 3+3, (9+35,10+36),(29+417,38+440)> = <6,(44,46), (446,478)ب)


را Core ، Noise ، Border ( در شکل زیر نقاط 10سوال

مشخص کنید :DBSCANتوسط الگوریتم

MinPts=3

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10


ـیک نقـطه مرـکزی اـست ـکه ـبا Aنقـطه ◄نـقاط همـسایگی تـعداد ه اینـک ه ـب توـجه

ار اـست ، ـباعث MinPtsبیش از معـید میـشود )نـقاط اد ـیک خوـشه جدـی ایـجاین خاـصیت دارای گ همگی رـن ز قرـم

هستند(.

MinPts=3

اط ◄ و Bنـق C ود ـخ ایگی همـس در ه ـک از تر اط MinPtsکـم نـق د دارـن ه نقـط ( هـستند ـبه ـطوری ـکه Borderـمرزی )

اـگر نـقاط همـسایه آنـها در ـیک خوـشه یز در هـمان خوـشه ـقرار ـن ا آنـه باـشند میگیرـند در ـغیر این ـصورت ـبه عـنوان

نویز مشخص می شوند. در خوـشه بـندی ـقرار Bدر اینـجا نقـطه ◄

نقطـه و یرد ویز Cمیـگ ـن وان عـن ه ـب .شناخته می شود

ـکه هیچ نقـطه Nنـقاطی مانـند نقـطه ◄ه ـب د ندارـن خـود همسـایگی در ای

.عنوان نویز شناخته میشوند

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10


)( Coredistanceالف ( در شکل زیر توسط کدام نقطه فاصله ی

بدست می آید :

را مشخص کنید :q2و P بین نقطه یreachability-distanceب (

3mm

q3

q4q5

q6

q7

q8

را تشکیل می دهد یعنی Core Distance فاصله q3 و نقطه یpالف ( فاصله ی بین نقطه

از رابـطه ی زـیر بدـست Reachability distanceب( فاـصله ی می آید :

¸ و فاـصله اقلیدـسی دو نقـطه ـکه 𝜺یـعنی فاـصله ی ـماکزیمم بین ی نقطـه دو بین اینجـا و pدر q2 ی فاصـله ، اکزیمم ـم ،

اقلیدسی می باشد .

ال این فاـصله بین دو نقـطه ی ا q1 و pولی بعـنوان مـث ـب ر براـبمی باشد.

به طور خالصه :


را بیان کنید؟sting ( معایب و مزایای الگوریتم12سوال •

معایب: تمام مرزهای خوشه بندی افقی و عمودی است و مرز •مورب بین خوشه ها وجود ندارد.

مزایا:ساختار شبکه ای اش پردازش موازی را آسان می کند.• تعداد سلول های پایین ترین الیه G است که o(G)پیچیدگی آن •

است.


( تکنیک های خوشه بندی داده با ابعاد زیاد را بیان کنید؟13سوال •

•Feature transformation قرار دادن داده ها در یک فضای کوچک تردر حالی که فاصله ی نسبی بین اشیا حفظ بماند .این روش زمانی

مشکل ایجاد می کند که تعداد زیادی ویژگی های بی ربط وجود داشته باشد.

•Feature selection حذف یکسری از ابعاد.زیر مجموعه ای از ابعاد انتخاب می شود و روابط بی ربط یا ابعاد زائد حذف می شود

از کدام تکنیک استفاده می کند؟CLIQUEالگوریتم •Feature transformation

از کدام تکنیک استفاده می کند؟PROCLUSالگوریتم Feature selection


( روش های آنالیز داده های دور افتاده را نام ببرید؟14سوال •

روش های آماری•روش های مبتنی بر فاصله •روش چگالی •روش انحراف استاندارد•


چگونه خوشه بندی را انجام می دهد؟PCLUSTER ( الگوریتم 15سوال •

این روش آنالیز خوشه ها را به کمک روش استخراج الگوهای پر •تکرار اختصاص دارد. الگوهای پرتکرار می تواند منجر به کشف

روابط وابستگی جالب بین داده ها شود.


( در چه مواردی از خوشه بندی با اشکال مشکل استفاد 16سوال •می شود؟

هنگامی که که وجود اشیای مانع روی خوشه بندی ما تاثیر بگذارند.

k-means برای خوشه بندی با اشیاء مانع بهتر از الگوریتم ؟چرا؟k-medoidsاستفاده کنید یا الگوریتم

از میانگین k-means چون الگوریتم k-medoidsالگویتم استفاده می کند ممکن است میانگین وسط شی مانع )مثل

رودخانه( باشد.

Documents

داده کاوی سئوالات نمونه