48
ز ي و ن و وه ح ن زد ک ي رو ا ي ن آ در دآده کاوي ردآد مه ي ب! اک ي وي ح# ش ن دآ ي س ا ن# ش کار د# آرش ه. ت# ش ر ي س د ن ه م# وش ه- ز. ي و ي5 مپ کا ي ع و ي ص م گاه# ش ن دآ ي. عت ن ص ر مي آ D ي ل5 ي( ر يG ب ک! ک ن کپ. ي) رآن ه. ت ده ن کO چ در ن ي آ. ق ق ن ده آي آي زآي ي دآده کاوي در ورد م گاه ايO ي هاي دآده ي ز ي و ن که ن ک م م. ت ش آ . وسط ن م. ت س شي هاي# ش ور م آ ن ي# ش ما هd ت خ شا ده# ش د# اش ي ح ي ص ن دآده ي م ن ي نO چ م ه ود.# ش ي ب ها# ش رو زآي ي ن مي ن ع ي .ور ن .مال ت خ آ ه. ت ش و ي5 پ دون ي ز ي و ن در ي. لت چا که ز ي و نده اه# ش م ي مد. و و# ش ن ي نO چ م ه .مال ت خ آ ي ط ر# ش، که ي م د . وآي ن ا ي اده ف. ن ش آ آر ه ون م ن هاي ماري آ و ر لي ا ي آ طا خ ن مي ن ده ر ود# ش ي سزر ي ي م ود# ش و ن ي نO چ م ه. ات# ش ن ما ر آ ي ف ل. ن چ م زآي ي. ت ن ن ي آ ده آي ها ه آرآن ده# ش. ت ش آ ح ي ص ن دآده ي م ود.# ش در. ت م ق عد ب ي ب ها م. ت پ ور گ ل آ زآي ي# ش ور م آ ي ز ي و ن آر له م جD م. ت پ ور گ ل آPAC ه آرآن ي م ردد گ و در ورد م عه .وش ن ن آ ر ي ن# ت چ ن ي م ود# ش که. ت ن دو م. ت پ ور گ ل آ D ري گي اد ي D ف ن ع ض و وي. ق که ل ب ا. ق م ت م ع. ب ه ن ز گ ي کد ي د نd شپ ه ورد م ي سزر يآر ق ي مD. رد گي

هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

کاوي داده در آن با رويکرد نحوه و نويز باک بي مهرداد

ارشد کارشناسي دانشجوي مصنوعي کامپيوتر-هوش مهندسي رشته 

تهران( تکنيک کبير)پلي امير صنعتي دانشگاه

چکيده

است ممکن که نويزي داده هاي پايگاه مورد در کاوي داده براي اي ايده تحقيق اين در توسط

روشهايي شود. همچنين مي داده توضيح باشد شده ساخته ماشين آموزش هاي سيستم شود. و مي مشاهده نويز که حالتي در نويز بدون پيوسته احتمال توزيع تخمين براي

تخمين خطا آناليز و آماري هاي نمونه از استفاده با تواند مي که ، شرطي احتمال همچنين ارائه ها ايده اين تست براي مختلفي آزمايشات همچنين و شود مي بررسي شود زده

شود. مي داده توضيح است شده و گردد مي ارائهPAC الگوريتم جمله از نويزي آموزش براي الگوريتمهايي بعد قسمت در قابل که قوي و ضعيف يادگيري الگوريتم دو تحت که شود مي بحث نيز آن توسعه مورد در

گيرد. مي قرار بررسي مورد هستند يکديگر به تعميم در کاوي داده روشهايي جمله از نويزي محيط در کاوي داده از کاربردي نهايت در

گردد. مي بحث وب صفحات در نويز بردن بين از برای نويزی محيطهای- مقدمه1

آناليز براي که بوده ها تکنيک و ابزار از وسيعي گستره شامل کاوي داده قديمي روشهاي

که دانشهايي همچنين و مفيد دانشهاي کشف جهت در بزرگ خيلي داده هاي پايگاه قبالگيرد. مي قرار استفاده مورد نهفته ها داده داخل در بوده مجهول

باشد مي مناسب ابعاد در موجود هاي داده پايگاه که است اين بر فرض روشها اين اکثر در و کاوي داده براي آل ايده شرايط باشد. يعني مي نويز بدون نسبتا باشد مي مهيا کامال

تصحيح يا حذف براي نيز ها داده پاکسازي بود مي نويز داراي ها داده که اوقات گاهي البته بخشهاي که هايي داده يا باشد مي اشتباه مقادير داراي که اطالعات از کوچکي نسبتا

ناقص يا و خطا هاي داده با برخورد در ديگر رفت. بعبارت مي بکار هستند تناقض داراي که شد مي گرفته بکار موجود هاي داده بعقيه با آموزش و گرديد مي حذف ها داده آن

مهمي هاي داده شده حذف هاي داده است ممکن زيرا نيست مناسب روش اين البته

Page 2: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

اثر در باقيمانده هاي داده حتي اينکه يا باشد داشته صحيح آموزش در زيادي تاثير و باشد آن بزرگتر مشکل نباشد. البته مناسب آموزش براي کافي قدر به اشتباه هاي داده حذف نويز داراي ذاتي صورت به که باشد مي هايي داده شامل داده هاي پايگاه برخي که است

دادههايي پايگاه ، مفاهيم اين از خوب مثال يک که باشد نمي پاکسازي قابل و باشد مي است. شده ساخته ماشين يادگيري الگوريتمهاي بيشتر( از )يا يکي توسط که است

بر را آموزش و کرد درک را کاوي داده بر نويز تاثير بتوان که است مهم بسيار بنابراينداد. انجام صحيح نحو به نيز اشتباه هاي داده مبناي

ناظر بدون هاي تکنيک اعمال مبناي بر کاوي داده مورد در موجود هاي ايده از بسياريباشد. مي قوانين و الگوها ، دانش کشف براي بزرگ خيلي هاي داده به آموزش پيوسته احتمال توزيع جزئيات زدن حدس يا و استنتاج ناظر بدون يادگيري عمومي مشکل

. باشد مي () شود مي گرفته نظر در مشاهدهN از حاصل هاي نمونه وX تصادفي متغير

مفيد جزئيات تعريف بصورت نظارت بدون آموزشهاي هدف ، تعريف اين به توجه با وشود. مي تعريفP(x) پيوسته چگالي

آمده بدست نويزي پردازش خروجي از که پيوسته احتمال توزيع بين ارتباط بخش اين در بتوان که است اميد شود. بنابراين مي بررسي نويز از عاري محيطهاي در توزيع مقابل در

يکسري همچنين و عمومي هاي ايده

روي بر اصلي اهميت و آورد بدست نويزي هاي داده از دانش حصول براي را ها محدوديتباشد. مي يادگيري الگوريتمهاي از آمده بدست نويزي هاي داده

ها ايده و - مدلها2 از آمده بدست داده پايگاه متغيرهاي احتمال توزيع بين کلي رابطه يک کردن پيدا هدف نويز بدون و صحيح مقادير صورت به ها داده که است حالتي با مقايسه در نويزي هاي داده

بردار يک عنوان تحت واقعي و اصلي هاي داده از مجموعه يک ايده اين دارد. در وجود تابع يک همچنين ، گردد مي تعريف است شده مشتقD احتمال توزيع از کهX تصادفي

نشان که بهتر مفهوم يک به را تصادفي بردار واقع در تابع اين که گردد مي تعريف يک کار اين با واقع در: نگارد مي باشد مي صحيح صورت به ها داده دهنده. گردد مي تعريف شود مي گرفته نظر در نويز فاقد فرضي صورت به که ها داده از حالتي

Page 3: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

متفاوت جداسازي دو وگردد. مي تعريف نيز ديگر تابع يک همچنين در هدف تابع از تخمين يک واقع در باشد. البته مي سيستم در نويز مقدار از

که کرد مطرح صورت بدين توان مي را مطلب اين کلي عبارت به يا شود مي گرفته نظر اضافه سيستم به نويز معيني مقدار خاص پردازشي طي تواند مي که است تابعي (. ) يعني نمايدعمومي - حالت2-1

در اند شده ايجاد تصادفي صورت به که متغيرهاي از عطفي ترکيب يک عمومي حالت در رابطه . اين شود مي داده نشان صورت به که شود مي گرفته نظر است تعريف قابل صورت به نيز نويزي هاي داده براي

باشد. مي نويزي هاي داده ايجاد براي ساده تبديل يک pرابطه اين در واقع در که: رسيم مي زير رابطه به احتماات مجموع تئوري از استفاده با و

(1 )رابطه

باشد. مي رابطه اين براي که از نمونه هاي داده مبناي بر شرطي احتمال تخمين هدف شده گفته مطالب به توجه با

از يکي از استفاده ) يعني باشد مي مناسب آماري روش يک از استفاده با داده پايگاه از ها داده پايگاه اگر مثال عنوان غيره(. به ياcross-alidation ياbootstrap روشهاي الگوريتم يک از استفاده با کميتها اين باشد شده نتيجه ماشين يادگيري هاي الگوريتم

cross-alidationهاي داده تعريف شود. طبق مي زده تخمين آموزشي هاي داده روي بر جدول توان مي بعد قسمت آيد. در مي حاصل Cدرست هاي نمونه تعدادي از آموزشي

ساختP تبديل هر ازاي به و تکرار( نسبي )تعداد فرکانس نمايش براي احتمال حاصل آموزشي هاي داده برروي يادگيري هاي الگوريتم خروجي مقايسه با جدول اين که

شود. مي آموزشي هاي نمونه از يک هر از که فرکانس ازجدول حاصل نتايج از گيري ميانگين با

: آيد مي بدست شرطي احتمال براي تخمين يک است شده ايجاد تست (2 )رابطه

Page 4: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

مي داده نشان زير صورت به داده پايگاه از مستقل صورت به نيز پيوسته احتمال همچنينشود:

( 3 )رابطه

کرد استنتاج ها نمونه هاي کميت شکل به براي تخمين يک توان مي بنابراين:

(4 )رابطه

خطا احتمال بنابراين است آمده بدست محدود هاي داده از يکسري از تخمين اين چون بنابراين شود محاسبه خطا مناسب استاندارد روش يک با است بهتر بنابراين دارد وجود

گردد: مي محاسبه زير صورت به شده زده تخمين احتمال براي واريانس (5 )رابطه

شده داده نمايش هاي نمونه واريانس ترتيب به و رابطه اين در کهباشد. مي و در

مي باعث که باشند مي مقادير از خاص محدوده يک داراي باال در شده انجام آناليزهاي بروز باعث تواند مي امر اين که داشت را شرطي احتمال از دقيق تخمين يک بتوان شود

نويزي هاي داده براي هم مشاهده قابل مناسب هاي نمونه وجود به نياز زيرا گردد مشکل صحيح هاي داده خوبي به بايد نيز نويزي هاي داه البته که باشد مي صحيح هاي داده هم و

دهد ارائه را قبولي قابل دقت بتواند که نمونه مناسبي تعداد يک بايد . بنابراين باشد. کرد انتخاب

محاسبه ها نمونه تعداد براي باال حد يک توان مي محاسباتي يادگيري تئوري ار استفاده با . يافت دست خوب دقت يک به توان مي شود ارضا اگر که است مقداري حد اين که کرد

نظر در مستقل برنولي دنباله يک بعنوان تواند مي آموزشي مثالهاي از هريک آنکه فرض با تخمين اختالف از که کرد ثبت احتمال براي چرنف محدوده يک توان مي شود گرفته

: آيد مي حاصل ثابت مقدار يک بوسيله صحيح شرطي احتمال و (6 )رابطه

Page 5: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

قرار استفاده مورد تخمين براي که است مثالهايي تعداد برابرm رابطه اين در که

بدست طريق ( از ) جايگشتها تبديلها تعداد مجموع اينکه دليل گيرد. به مي

از باشد مقدار از بيشتر صحيح مقدار با تخمينها از يک هر اختالف اينکه احتمال آيد مي محاسبه زير رابطه

شود: مي

( 7 )رابطه

داشت نگاه ثابت طور به را مقدار بتوان تا است الزم که هايي نمونه تعداد بنابراين محدود

: با شود مي (8 )رابطه

: شود مي تعريف زير رابطه دارد وجود صورت به باينري ها متغير که حالتي در و (9 )رابطه

رشد ربطي قوانين در متغيرها تعداد با خطي صورت به آموزشي مثالهاي تعداد بنابراين آنگاه باشد1/0 شرطي تخمين هر دقت و % باشد95 احتمال اگر مثال عنوان کند. به مي

داريم:

است. الزم آموزشي مثال دويست تا يکصد کم دست کوچک هايN براي بنابراين و مي گرفته نظر در بصورت براي باينري حالت يک ساده مثال يک : در1 مثال يکX حالت اين آيد. در مي حاصل متغير خطي نويز تبديل تحت و شود

دو به Dداده پايگاه حالت اين باشد. در ميD داده پايگاه هاي داده از بزرگ مجموعه باشد. مي تهي مجموعه دو اين اشتراک که شود مي تقسيم گسسته مجموعه صحيح مقادير بايد و شود مي گرفته بکار / آموزش تست مجموعه بعنوان مجموعه هم گردد. مجموعه گزاري برچسب اطمينان قابل پردازش يک از استفاده با

Page 6: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

رابطه حالت اين باشد. در مي است نشده گزاري برچسب که داده پايگاه باقيمانده شاملشود: مي داده نمايش زير صورت ( به1)

(10 )رابطه

مجموعه روي بر دهنده آموزش کارايي ارزيابي با آموزش فاز طول در شرطي احتمال شود. جدول مي زده تخمين بين تناسب مقايسه با تست

شود: مي داده نشان زير جدول در ممکن خروجيهاي براي فرکانس

احتمال . جدول1 جدول

: کرد محاسبه شده مشاهده فرکانس از را تخميني شرطي احتمال توان مي سپس

(11 )رابطه

براي را استاندارد خطاي و ها نمونه توانايي توان ميcross-validation روال از استفاده با

با توان مي را هاي زد. احتمال تخمين باال در شده داده توضيح هاي کميت مشاهده و نشده گزاري برچسب مثالهاي زيادي تعداد با اي دهنده آموزش از استفادهزد. تخمين مقادير براي دقت فرکانس

کمتر خيلي شود مي استفاده تست و آموزش براي که هايي نمونه مجموعه کلي حالت در توان مي . بنابراين يعني است نشده گزاري برچسب که است هايي نمونه تعداد از

( براي5) رابطه به توجه با که کرد فرض شرطي احتمال تخمين براي را آماري خطاي يکشود: مي تعريف زير صورت به

(12 )رابطه

نظر در آن نويزي بخشهاي وB وA باينري تصادفي متغير دو حالت اين : در2 مثال گرفته

Page 7: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

قابل هاي کميت ( بصورت صحيح ) بصورت پيوسته احتمال توزيع حالت اين در ، شود ميشود: مي نوشته مشاهده

احتمال حالت اين باشد. در مي قبل مثال به شبيه بسيار مثال اين در پيشرفت شکل جدول از استفاده و تست هاي نمونه روي بر دهنده آموزش کارايي ارزيابي با شرطي

تعليم از استفاده با غيره و هاي شود. تخمين مي زده تخمين پيچيده وابستگي نشده گزاري برچسب هاي نمونه شامل کامل صورت به که اي داده پايگاه روي بر دهنده با نيز خطا تخمين ميزان ( و4) رابطه به توجه با آيد. مقدار مي حاصل است

گردد. مي ( تعيين5) ساختار از استفاده - آزمايش3 بودن اجرا قابل تعيين براي ها داده روي بر که آزمايشاتي به راجع توضيحاتي بخش اين در اين است. در شده بررسي نتايج و است شده ارائه ، شده بيان هاي ايده کارايي همچنين و

، تصادفي متغير دو و يک با ترتيب به ، شده سازي شبيه داده نمونه دو با آزمايش و عمل. شود مي انجام بررسي

منابع بين رابطه جزئيات به راجع اطالعاتي بتوان تا دهد مي را امکان اين آزمايشات اين الگوريتم يک از نهايي آزمايشات آورد. در بدست پيوسته احتمال توزيع نتايج و خطا

نتايج و شود مي استفاده واقعي هاي داده روي بر شده شناخته ماشين دهنده آموزششود. مي مقايسه هم با صحيح پيوسته احتمال توزيع شده( و )مشاهده تخمين از حاصل

تصادفي هاي متغير احتمال توزيع روي بر نويز اثر آزمايش اولين : در متغير - يک3-1کارلو) مونت تکنيک شده سازي شبيه هاي داده توليد شود. براي مي بررسي ساده باينري

Monte Carloتصادفي متغيرهاي از نمونه هر شود. ابتدا مي اعمال احتمال مدلهاي ( روي Cشود: مي ساخته برنولي مدل با مطابق

گردد: مي اعمال ها نمونه از يک هر به ، احتمال توزيع با مطابق نويز سپس

Page 8: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

منفي نمونه به اي ضربه گرفتن با مثبت هاي نمونه که اين احتمال رابطه اين در که هاي نمونه به اي ضربه گرفتن با منفي هاي نمونه اينکه احتمال و باشد مي گردد تبديلباشد. مي گردد تبديل مثبت

شود مي مقايسه مقابل در هاي نمونه و شود مي توليد ها نمونه آموزش فاز طول درپردازش سازي شبيه براي آزمايش اجراي توليدکرد. چندين را وابستگي جدول بتوان تا

cross-validation(11) رابطه از نيز شرطي احتمال تخمين . براي شود مي اعمال شود. مي استفاده

ها داده اين شود. براي مي استفاده ها نمونه توليد براي باال مدل از تخمين فاز طول در نهايي شود. تخمين مي داده نشان و تخمين کردن مشخص براي فرکانس بوسيله

شود. مي ( محاسبه12) ( و10) هاي رابطه صحيح احتمال بين اختالف ميزان و شود مي اعمال به مختلفي مقادير اينجا در

شود. مي مقايسه تخميني احتمال و ، شده مشاهده احتمال ، . باشد مي نمايش اين در که است شده داده نشان1 شکل در کلي نتايج فاز است. براي شده توليد مستقل آزمايش پنچ مجموع طول در آموزشي نمونه پنجاه

به توجه با شود مي مشاهده شکل در که شود. همانطور مي توليد نمونه5000تخمين نرخ از وسيع گستره يک طول در صحيح احتمال از دقيقي تخمين يک توان ( مي10) مدل. آورد بدست خطا

Page 9: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

شده ساخته )با است( و شده ساخته )با براي احتمال . تخمين1شکل داده نشان چين نقطه با صحيح . احتمال خطا نرخ از تابعي است( بصورت

است. شده

متغير دو براي پيوسته احتمال توزيع بر نويز اثر دوم آزمايش : در متغير - دو3-1 کارلو مونت تکنيک از دوباره نيز اينجا شود. در مي بررسيB وA وابسته باينري تصادفي

شود: مي توليد زير مطابقA که شود مي استفاده ساده احتمال مدل با

شود: مي توليد زير روابط از استفاده باB و

توزيع باB باشد باشد. اگر مي وابستگي درجه پارامتر روابط اين در که

B آنگاه باشد باشد. اگر ميA از مستقل کامال اگر باشد. و ميA به وابسته کامال پيوسته احتمال و يابد مي افزايشA وابستگي ميزان افزايشي بصورت باشد

آيد مي بدست صورت بدين صحيح

است زير بصورت شرطي احتمال مطابق سيستم به وارد خطاي ميزان

Page 10: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

و

پيوسته . احتمال باشد مي متغير يک حالت در شده گفته مطالب به شبيه آزمايش اين از مختلفي مقادير شامل نتايج و شود مي زده ( تخمين13) رابطه از استفاده با صحيح

. باشد مي نمايش اين در که است شده داده نشان2 شکل در کلي نتايج

آزمايش پنج طول در آموزشي نمونه باشد. پنجاه مي نمونه5000 قبل بخش آخر قسمت مانند تخمين فاز براي و است شده توليد مختلف

است. شده توليد

ساخته )با است( و شده ساخته )با براي احتمال . تخمين2 شکل نشان چين نقطه با صحيح . احتمال خطا نرخ از تابعي است( بصورت شده

است. شده داده

Page 11: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

الگوريتم از استفاده با نويزي هاي داده آزمايش اين : در واقعي دنياي هاي - داده3-3 وadult داده پايگاه از خام هاي داده شود. براي مي ايجادC4.5 تصميم درخت يادگيري

درآمد به مربوط آماري اطالعات به مربوط که باشد مي ها داده از نمونه48842 شامل مجموعه دو به ها داده اين شود. کل مي استفاده ، باشد مي شخص هر به مربوط هاي

گزاري برچسب نمونه16281 و تخمين فاز براي نشده گزاري برچسب نمونه32561 شده گزاري برچسب نمونه16281 شود. همچنين مي تقسيم تست و آموزش براي شده

شود. مي تقسيمcross-validation طبق بخش سه به آينده در داده آموزش کالس دو به خام هاي نمونه بندي طبقه براي تصميم درختهاي از مجموعه دو

شود. مي

B و باشد مي شده يافته دست آموزش بيشترين سطح ،A متغير ها رابطه اين در که

پيوسته احتمال توزيع تخمين دهد. هدف مي نشان شخص هر براي را درآمد سطح. باشد مي زوج هر براي

دهنده آموزش تعليم براي آموزشي نمونهcross-validation 10854 روال از مرحله هر در طبقه دقت تخمين براي تست نمونه5427 و ،"B-Type" و"A-Type" تصميم درخت گيرد. براي مي قرار استفاده ( مورد همان ) يعني شرطي احتمال و بندي

-B" دهنده آموزش براي % و50 حدود بندي طبقه خطاي نرخ"A-Type" دهنده آموزش

Type"باشد. % مي16 حدود در ي ها نمونه 32651 بندي طبقه براي تصميم درخت نوع دو تخمين روال طول در

استفاده مورد نويزي مشاهدات براي پيوسته احتمال تخمين توليد جهت باقيمانده 10 از يک هر براي ( مقادير5) ( و4) هاي رابطه از استفاده گيرد. با مي قرارشود. مي زده ( تخمين شده داده توضيح2 جدول ) در ممکن زوج

Page 12: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

.C4.5 . نتايج2 جدول

نشان آزمايش در زوج هر ازاي به شده گيري اندازه مختلف پيوسته احتماالت3 شکل در با بهتري سازش براي شده محاسبه مقدار حاالت بيشتر است. در شده داده

باشد. مي دارا شده مشاهده مقادير به نسبت اصلي مقادير

تصميم. درخت از استفاده با ها داده ساخت . نتايج3 شکل

صحيح مقادير بين شده گيري اندازه خطاي درصد همراه به از جفت هر2 جدول درشود. مي ( مشاهده شده زده ) تخمين شده مشاهده پيوسته احتمال و

Page 13: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

وابسته - کارهاي4 نويزي آموزشي هاي داده حضور در نظارت با گيري ياد از مختلفي روشهاي گذشته در

و نويز مختلف مدلهاي اعمال مبناي بر روشها اين اکثر هدف و است شده داده آموزش از آموزشها اين اکثر و باشد مي نويزي هاي داده اين روي ها آموزش کلي مفاهيم بررسي احتمال مدلهاي کند. مي استفاده محاسباتي تعليم تئوري روشهاي ديگر يا و درست تقريبا

خطاي ميزان واقع در آستانه حد اين که کنند مي تعريف آستانه حد يک گاهي زمينه اين در مشخص نويزي هاي نمونه براي حداقل مقدار يک توان مي حتي يا باشد مي تحمل قابل خطاي نرخ به رسيدن براي الزم نويزي هاي نمونه حداقل ميزان اين واقع در که کرد

باشد. مي شده گرفتهشد. خواهد ارائه نويزي آموزشهاي براي مدلهايي ادامه درنويزي آموزش - مدل5 يادگيري مدل باشد مي صحيح تقريبا يادگيري مدل يکValiant احتمال معرفي آنجائيکه از

PACاز يکي

. است ماشين يادگيري هاي مدل بهترين و ترين جالب مقدار يک از نزديک تخمين تعيين وظيفه گيرنده ياد به ،PAC يادگيري مدل از نمونه يک در

يک به دسترسي اجازه يادگيرنده شود. به مي محول هدف تابع با{0,1} بين ناشناخته داده دقيق و مطمئن پارامتري و اوراکل نمونه

ايجادD توزيع به توجه با نمونه يک ، کند مي پيدا دسترسي اوراکل به که شود. وقتي مي. گرداند مي برF به توجه با برچسبش با همراه نمونه يک و کند مي به توجه با شده انتخاب نمونه يک که است احتمالي ، يادگيرنده فرضي خروجي خطاي نرخ

Dفرضيه توسط ، است. شده گذاري برچسب اشتباها

از کمتر آن خطاي نرخ که دارد باال اطمينان درجه با دارد اي فرضيه توليد به نياز گيرنده ياد دو کلي حالت کرد. در استفاده نويزي يادگيريهاي در آن از بتوان تا باشد دقت پارامتريادگيري هاي باشد. الگوريتم مي زماني و اي نمونه پيچيدگي ،PAC مدل پيچيدگي معيار

Page 14: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

PAC ، ودقت اطمينان مواقع بيشتر در و شدند ايجاد توابع هاي کالس از بسياري براي باشد. مي محبوب يادگيري مدل يک مدل اين بنابراين آورد مي فراهم را نظر مورد ياد آن به قوي يادگيري مدل عنوان به آن از اغلب ، باال در شده داده توضيح يادگيري مدل دقيق اختياري فرضي خروجي ايجاد به نياز است ممکن يادگيري الگوريتم شود. چون مي

شده ارائه دارد نام ضعيف يادگيري مدل که ديگر نوع ، باشد داشته دقت پارامتر به توجه با آن براي دقتي پارامتر هيچ اينکه جز به است قوي يادگيري مدل مانند مدل اين که است تنها فرضيه خروجي حالت اين در و باشد نمي دقت پارامتر محاسبه به نياز و ندارد وجود الگوريتم يک خروجي ديگر عبارت به باشد داشته1/2 از کمتر خطاي نرخ که است کافي

باشد مي تصادفي حدس حدود در تخمين اين که دارد تخميني به نياز فقط ضعيف يادگيري نسبت بهتري مقياس داراي البته باشد( که مي تصادفي تخمين از بهتر تخمين مقدار )اين

باشد. مي آن به توسط سپس و آمد دست به Schapire توسط ابتدا انگيز تعجب و اي پايه نتيجه يک

Freundروشها يکسري اعمال با تواند مي کارآمد ضعيف الگوريتم هر اينکه آن و شد اثبات ضعيف الگوريتم يک از ابتدا توان مي بنابراين شود تبديل کارآمد قوي الگوريتم يک به

الگوريتم يک به را آن نهايت در و باشد مي ساده آن يادگيري و ساخت که کرد استفاده به بايد که اي داده که است اينPAC مدل در بحراني نقطه کرد. يک تبديل کارآمد قوي

يادگيري هاي الگوريتم اکثر حقيقت باشد. در نويز بدون بايد شود داده نشان يادگيرندهشوند. مي رد باشند نويز داراي شده گذاري برچسب هاي نمونه اگر ،PAC استاندارد

شده معرفي نويز مدل بندي تقسيم ، عملي و تئوري تحقيقات براي نويز معروف مدل دوباشد. ميKearns وLI توسط شده ارائه بدخيم خطاي مدل وAngulin وLarid توسط

، تصادفي صورت به کاربر توسط شده دريافت نمونه هر نويز، بندي طبقه مدل در اشتباها تعويض اجازه ثابت احتمال با رقابت يک ، بدخيم خطاي مدل در شود مي گذاري برچسب

يادگيرنده توسط شده گذاري برچسب شده انتخاب نمونه با شده گذاري برچسب نمونهشود. مي داده

کردند مي تحمل را نويز بندي طبقه که ايPAC هاي الگوريتم از محدودي تعداد درحاليکه زمانيکه تا نويز بندي طبقه وجود با موثر يادگيري براي اساسي کار هيچ بودند شده ايجاد

Keansدرخواستي( آماري وجو پرس مدل( (SQرا ) بود. نگرفته صورت ، کرد معرفي

Page 15: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

. الگوريتم شود مي جايگزين آماري اوراکل باPAC استاندارد اوراکل نمونه ،SQ مدل درSQ، گذاري برچسب هاي نمونه توزيع روي بر مختلف آماري مقادير براي را جديد اوراکل

با را شده درخواست آمارهاي اوراکل سپس و دهد مي قرار درخواست مورد مختلف شدهگرداند. برمي مشخص اضافي خطاي

از مناسبي و بزرگ هاي نمونه گرفتن با تواند مي اوراکل آماري فراخوانيهاي که آنجايي از به را جديد اوراکل اين توان مي ، شود سازي شبيه بااليي احتمال باoracle نمونه يک

، کند مي محدود را شده گذاري برچسب هاي نمونه از استفاده روش که واسطي عنوانگرفت. نظر در آمارهاي تعداد بيشترين برابر که وجو پرس پيچيدگي ،SQهاي الگوريتم پيچيدگي معيار دو

باشد. مي است نياز مورد اضافي خطاي کمترين که تحمل پيچيدگي و است موردنياز بصورتPAC مدل درSQ هاي الگوريتم سازي شبيه زماني و اي نمونه پيچيدگيهاي

معيارها اين که است آن بر تمايل گيرد. بنابراين مي قرار معيارها اين تاثير تحت مستقيمشوند. محدود امکان حد تا

Kearnsمهم خاصيت دو SQ نشان را يادگيري الگوريتم هر تقريبا که داد نشان او داد: اوالPAC مدل در تواند مي SQمدل که گرفت نتيجه سپس گيرد( و )قرار شود پخش SQ

محدوديت تا شود مي باعث آن بودن عمومي عبارتي به است عمومي مدل يک تقريبا اوراکل هاي فراخواني که داد نشان او کند. ثانيا ايجاد يادگيري هاي الگوريتم روي بر کمي نويز بندي طبقه از بزرگي هاي نمونه که روالي توسط بااليي بسيار احتمال با تواند مي

بيرون اوراکل

شود. سازي شبيه ، کشد مي الگوريتمي به تواند مي PACيادگيري مدل هر تقريبا که است اين خاصيت دو اين نتيجهکند. تحمل را نويز بندي طبقه تواند مي که شود تبديل

Decaturهاي نمونه که روالي توسط تواند مي آماري اوراکل هاي فراخواني که داد نشان شود. سازي شبيه بااليي احتمال با کند مي خارج بدخيم خطاي با اوراکل از را بزرگ

kearns وli که حالي در بهPAC يادگيري الگوريتم تبديل براي عمومي تکنيک يک قبال به هم باز ، بودند داده نشان کند مي تحمل را بدخيم خطاي از کمي مقدار که الگوريتمي

داد. مي ارائه را بهتري نتايج شرايط از بعضي درSQ کارگيري

Page 16: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

KEARNS تکنيک ، يافتند گسترش هستند يادگيري قابل نويز وجود با که توابعي اينکه با

چنين حقيقت در نکرد ايجادSQ يادگيري مدل بهPACيادگيري مدل از مناسبي کاهش قابلPAC در توازن تابعي کالسهاي که حالي باشد: در داشته وجود تواند نمي کاهشينيستند. يادگيري قابلSQ مدل در کالسها اين که داد نشان keanrsهستند، يادگيري

است کمي عمومي قوانين شاملSQ بهPAC هاي الگوريتم تبديل برايKEANRS تکنيک بدين شود تبديلSQ الگوريتم به تنهايي به و شود آزمايش بايدPAC الگوريتم هر بنابراين اتخاذ خاص روشي و شود مي تست مختلف روشهايPAC الگوريتم هر براي که صورت

ندارد(. بنابراين وجود الگوريتمها کل براي کلي روش )يک گردد مي

پيچيدگي باالي حد از SQ يادگيري الگوريتم پيچيدگي براي عمومي باالي حد توان نميآورد. بدستPAC يادگيري الگوريتم

هاي الگوريتم اي نمونه و زماني پيچيدگي براي بااليي حدود که است اين واقعيت اين نتيجهPACآيد. بدست تواند نمي مستقيم بصورت نويز وجود با آيد. مي بدست زير ازنتايج استفاده با نويز وجود با راPAC و SQيادگيري الگوريتم حدود

مي تعريف ضعيفPAC يادگيري الگوريتم مانند روشي به را ضعيف SQيادگيري الگوريتم تا داد ارتقا را ضعيف SQ هاي الگوريتم دقت که امر اين شود مي داده نشان سپس و شود

که شود مي داده نشان اين است. بنابر پذير امکان آيد دست بهSQ قوي هاي الگوريتم از منظور اين هستند. براي قوي SQالگوريتمهاي ارز هم ضعيفSQ يادگيري الگوريتمهاي

است بهينه ، دقت پارامترهاي روي بر اش وابستگي وجود با که اکثريت ارتقا تکنيکشود. مي استفاده

اکثر براي را بااليي حد که دهد مي را اجازه اين ارتقا نتايجPAC مدل مانند SQمدل در و آورد بدست پيچيدگيها و پرس تعداد روي بر به توجه با را بااليي حدود توان مي خصوصا

معکوس و بصورت جستجو فضاي بعد ، بصورت ها جو

داده نشان آورد. بعالوه بدست بصورت تحمل مينيمم

بهينه يادگيري مسائل از کالس يک شرح از استفاده با عمومي باالي حدود اين که شود مي پايين هستند. حد

Page 17: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

آيد. در مي بدست با را تحمل مينيمم معکوس و با را ها جو و پرس

باشد. مي تابعي کالس بعدd اينجا ، شده سازي شبيهSQ هاي الگوريتم پيچيدگي با ارتباط درSQ هاي الگوريتم پيچيدگيهاي

کند. مي تعيين را PAC هاي الگوريتم نويز تحمل پيچيدگي مختلف نويز هاي مدل باKearnsهاي الگوريتم پيچيدگي مينيمم براي را عمومي حدود SQحدود آورد. بعد بدست ارتقا آيد. نتايج مي بدست آورد دست بهKearns که عمومي حدود مانند را خاصي پاييني

را هستند بهينه حدود اين به توجه با کهSQ هاي الگوريتم ساختن براي عمومي تکنيک يک SQ هاي الگوريتم سازي شبيه توسط که ايPAC يادگيري هاي کند. الگوريتم مي تامين

الگوريتم براي شده شناخته پاييني حدود با مقايسه در نويز وجو با آمدند دست به بهينهنيستند. کارامد ،PAC يادگيري هاي

روي بر بااليي حد و باشد شده خواست در اضافي خطاي مينيمم براي پاييني حداگر

کالس وجود با شده سازي شبيهSQ هاي الگوريتم پيچيدگي باشد شده شناخته نويز نرخشود. مي بخشيده بهبود نويز

الگوريتم از مختلفي هاي کپي باKearns اصلي سازي شبيه صورت اين در

SQ اجرا را

شود. مي پردازش خروجي آوردن بدست براي را اجراها اين نتايج و شود مي

بنابر يابد کاهش تواند مي تا انشعاب فاکتور اين که شود مي داده نشان

يابد. مي کاهش شده سازي شبيه زماني پيچيدگي اين متفاوتي طبيعي مدل يک ارائه با خطا و نويز وجود با را SQالگوريتم سازي شبيه پيچيدگي

بخشيد. بهبود توان مي SQ از جوهاي و پرس ،SQ هاي الگوريتم که شود مي داده اجازه نسبي خطاي باSQ مدل در

دهند. همچنين قرار پذيرش مورد را است نياز مورد نسبي خطاي در آنها تخمين که آماري يادگيري قابل آماري جوهاي و پرس نسبي خطاي با کالس يک که شود مي داده نشانباشد. يادگيري قابل آماري جوهاي و پرس مضاعف خطاهاي با اگر تنها و اگر است

و شود مي گرفته نظر درSQ الگوريتم نسبي خطاي پيچيدگي روي بر عمومي حدهاي با طبيعي صورت به توانند مي يادگيري هاي الگوريتم از بسياري که شود مي داده نشان

Page 18: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

از هايي سازي شبيه شود. سپس نوشتهSQ الگوريتم از استفاده با کارآمدي نسبي خطاي شبيه شود. اين مي انجام نويز وجود بدون و نويز وجود باSQ الگوريتم نسبي خطاي خطاهاي سازيهاي شبيه به نسبت بدخيم خطاهاي وجود با يا و نويز وجود بدون سازيها

هستند. آمدتر کارSQ هاي الگوريتم مضاعف طبقه در نويز وجود بدونSQهاي الگوريتم سازيهاي شبيه که شود مي داده نشان آخر در

و پرس از بزرگتري کالس تا يابند تغيير توانند مي بدخيم خطاهاي وجود با و نويز بندي تواند مي ما سازي شبيه که شود مي داده نشان همچنين و شوند شامل را آماري جوهاي

است. زير صورت به کارها شوند. بقيه شامل را واقعي ميزان با آماري جوهاي و پرس 3-2 بخش در و شود مي تعريف رسمي صورت به را يادگيري هاي مدل2-2بخش در

شود. مي داده شرحPAC مدل ارتقا نتايجآموزش - مدلهای5-1

يافته شکل بصورت رفت که شرحي براي الزم آموزش مناسب مدلهاي بخش اين در تعريف

بندي طبقه ارتباط درPAC ضعيف و قوي آموزش عنوان تحت مدل يک ابتدا شود. در مي. شود مي تعريف آماري جو و پرس مدل نهايت در و بدخيم نويز مدلهاي و نويز

PAC ضعيف و قوي آموزشي - مدلهاي5-1-1 ، شده تعريفX نمونه فضاي در کهF کالس تابع از عنصر يک بعنوانf هدف مجهول تابع

-بعديn اقليدسي فضاي يا تايي دو بعديn فضاي درX نمونه . فضاي شود مي فرض مي تعريف نمونه هر مشترک طول عنوان بهn پارامتر . و شود مي مشخص

شود. . است شده توزيع X رويD مجهول احتمال توزيع طول در ها نمونه که شود مي فرض

. کند مي استفاده داده منبع عنوان به اوراکل از نمونه يک از دهنده آموزش نمونه که که گرداند برمي را شده گذاري برچسب مثال فراخواني

L برچسب و شود مي رسمD مجهول توزيع با مطابق مستقل و تصادفي بصورت

توسط که شده گذاري برچسب هاي نمونه از توالي يک به باشد. اغلب مي مساويشود. مي داده ارجاع نمونه بعنوان است شده رسم اوراکل مثال

نتيجه درh فرضيه سرانجام و کند مي رسم تحت را ها نمونه آموزش الگورتم آيد. براي مي حاصل خروجي بعنوان شود مي تعريفX روي کهH فرضي کالس يکسري

Page 19: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

که را هايي نمونهh اينکه احتمال بعنوان ، شود مي تعريفh خطاي نرخ hفرض هراست. کرده گذاري برچسب اشتباه است شده رسمD مطابق تصادفي بصورت

تصادفي شده ترسيم هاي نمونه توسطP گزاره اينکه احتمال بعنوان نماد مي تعريف مقابل بصورتh خطاي همچنين و شود مي تعريف شود ترسيمD مطابق

شود:

همچنين و شود مي گرفته نظر درF در تابع نمايش براي کالسي بعنوانh اغلب

شود. مي تعريفf هدف تابع ازH( ) نماينده نمايش کوچکترين اندازه بعنوان به نزديک خطاي ميزان و کم دست احتمال با خروجي توليد ، دهنده آموزش هدف

ديگر عبارت : به باشد مي دقت پارامتر و اطمينان پارامتر که باشد مي h فرض براي بتوان گردد. اگر حفظ خطاي محدوده که حالي در نباشد کمتر اطمينان حد يک از احتمال

نشان پارامترهاي با اي جمله چند يک با را آموزش الگوريتم اجراي زمان

شود. مي گفته موثر اي جمله چند يک الگوريتم به آنگاه داد قوي( PAC ) آموزش1 تعريف

قابل اي جمله چند يک Fکالس شود. به مي تعريفX رويH وF توابع کالس جا اين در مثل اي جمله چند يک وA الگوريتم يک اگر شود مي گفتهH توسط آموزش

دقت پارامتر هر براي ،X رويD توزيع هر براي ، هر ازاي به بطوريکه باشد موجود A : اگر باشد برقرار زير شرايط که اطمينان پارامتر هر براي ، که

دسترسي نمونه اوراکل به و کند دريافت ورودي بعنوان را و پارامترهاي

مي متوقف زماني محدوده درA الگوريتم صورت اين باشد. در داشته

گردد. مي توليد ارضاء با حداقل با خروجي بعنوان فرض و شود دقت پارامتر بتواند بايد آموزش الگوريتم ، قوي آموزش در شده گفته مطالب به توجه با

مانند مختلفي نوع نمايد. يک تامين مطلوب بطور کند مي دريافت ورودي روي از که را نوع اين که تفاوت اين با شود مي ناميده ضعيف آموزش که دارد وجود قوي آموزش

نمايد تامين را خطاي نرخ است الزم تنها آنها خروجي و ندارد را دقت پارامتر آموزش

خطاي نرخ تصادفي حدس روش که آنجايي (. از )يعني

Page 20: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

حدس روش يک بعنوان را ضعيف آموزش الگوريتم توان مي کند مي توليد حدود

دارا تصادفي حدس به نسبت کمتري خطاي نرخ داراي البته که گرفت نظر در تصادفي الگوريتم خروجي و ضعيف فرضيه بعنوان ضعيف آموزش الگوريتم . خروجي باشد مي

شود. مي گرفته نظر در قوي فرضيه بعنوان قوي آموزش

Page 21: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

بدخيم خطاي مدلهاي و نويز بندي - طبقه5-1-2

است الزم آزمايش اين در موجود هاي داده که است آن رود ميPAC روش به که انتقادي زمينه اين در تجربي و تئوري مفاهيم براي نويز عمومي مدل باشند. دو نويز از عاري که

شده ( ارائهLaird) ليرد ( وAngluin) آنگلوين توسط که نويز بندي طبقه مدل از اند عبارتاست. شده ( ارائهValiant) واليانت توسط که بدخيم خطاي هاي مدل و است: نويز بندي طبقه مدل

جايگزين نمونه اوراکل با نمونه اوراکل نويز بندي طبقه مدل در

D با مطابق نمونه شود مي فراخواني نمونه نويزي اوراکل اين گاه گردد. هر مي

ترسيم

احتمال با را يا احتمال با را خروجي اوراکل سپس شود مي

بر نويز وجود کند. با مي توليد ، شده ترسيم نمونه هر براي مستقل و تصادفي بصورت روي

باh فرض خروجي توليد همچنان دهنده آموزش هدف شده گزاري برچسب هاي نمونهماند. مي باقي اکثر براي خطاي ميزان و حداقل احتمال

آنگاه آورد بدست روتين بصورت را خطاي نرخ واقعي مقدار نتواند دهنده آموزش وقتي

و کند مي دريافت نويز نرخ براي باالي آستانه حد يک دهنده آموزش

اجراي زمان که شود مي ياد موثر اي جمله چند بعنوان دهنده آموزش از زماني همچنين

بخوبي معمولي PACآموزش هاي پارامتر با اي جمله چند يک توسط الگوريتم

باشد. بيان قابل: بدخيم خطاي مدل جايگزين نمونه نويزي اوراکل با نمونه اوراکل بدخيم خطاي مدل در

مي درخواست شده گزاري برچسب نمونه احتمال با اوراکل اين از گاه گردد. هر مي مي برگردانده دهنده آموزش به و شود مي انتخابD با مطابقX نمونه ، شود

و حداقل احتمال باh فرض خروجي توليد دهنده آموزش هدف نيز حالت اين شود. درباشد. مي اکثر براي خطاي

آماري جو و پرس هاي - مدل5-1-3

Page 22: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

اوراکل با استانداردPAC مدل براي نمونه اوراکل آماري جو و پرس مدل در هاي متغير براي را اوراکل ،SQ گردد. الگوريتم مي جايگزين آماري احتمال ) يعني کند مي جستجو شده گزاري برچسب مثالهاي توزيع روي گوناگون آماري هاي متغير داراي تصادفي شده انتخاب شده گزاري برچسب مثالهاي اينکه

خطاي با مطابق را درخواستي آماري اطالعاتSTAT اوراکل ( و است باشدچقدر باشد. در مي شکل به مناسب صورت به آماري جو و . پرس گرداند برمي افزايشي

) يعني شد با مي به شده گزاري برچسب مثالهاي از نگاشتي اينجا

که را مقدار روي باشد. فراخواني مي افزايشي خطاي پارامتر ( وگرداند. برمي را است شرط ارضاء با از تخميني

بزرگ کافي اندازه به هاي نمونه ترسيم با زياد احتمال با تواند مي فراخواني بتواند که شده گزاري برچسب هاي نمونه از بخشي خروجي توليد و براي

به الزم هاي نمونه شود. اندازه مي سازي شبيه ، کند ارضاء تحت را

ارزيابي براي الزم زمان به نيز سازي شبيه اضافي زمان همچنين و باشد مي وابسته

زمان که نامند مي موثر اي جمله چند را الگوريتم زماني نيز اينجا . در است وابسته

آن هاي پارامتر که اي جمله چند باSQ الگوريتم اجراي زمان و باشد هر براي الزم

باشد. مي محدود باشد مي

قوي(SQ )الگوريتم2تعريف آموزش قابل اي جمله چند يک Fکالس شود. به مي تعريفX رويH وF توابع کالس

اي جمله چند وA الگوريتم يک اگر ، شود مي گفتهH توسط آماري جو و پرس بوسيله D توزيع هر براي ، هر ازاي به که باشد موجود و و هاي

پارامترهايA : اگر باشد برقرار زير شرايط که دقت پارامتر هر براي ،X روي اين در باشد داشته دسترسي آماري اوراکل به و کند دريافت ورودي بعنوان را

صورت: زماني محدوده در تواند مي،A توسط شده ساخته جوي و پرس هر الف( براي

شود. ارزيابي محدوده در تواند مي و

Page 23: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

با فرض و شود مي متوقف زماني محدوده درA ب( الگوريتم

گردد. مي توليد خروجي بعنوان شرط ارضاء تلورانس. و جو و پرس پيچيدگي از عبارتند که دارد وجودSQ الگوريتم در ديگر تعريف دو

شده ارائه جوهاي و پرس تعدادA براي جو و پرس پيچيدگي ، آموزشي هاي نمونه براي اينجا باشد. در ميA براي افزاينده خطاي کوچکترين واقع درA تلورانس وA توسط

يک وA روي جو و پرس پيچيدگي براي باال حد يک

و آنکه نکته و شود مي تعريفA تلورانس روي پايين حد

.

با تواند مي همچنين آماري اوراکل فراخواني است آن مدل اين مهم خصوصيات از يکي که روالي يا زياد احتمال

اوراکل بدخيم خطاي يا نويزاوراکل بندي طبقه براي را ها نمونه

چند يک با الزم هاي نمونه اندازه پيشين حالتهاي کرد. در سازي شبيه ، کند مي ترسيم

اخير حاالت در که حالي : در شود مي داده نمايش با اي جمله

که آنجا شود. از مي داده نمايش با اي جمله چند يک با الزم هاي نمونه اندازه

جدا ها نمونه ترسيم و طراحي شامل عاقالنه بطورSQ الگوريتم براي موثر سازي شبيه شبيه هاي نمونه پيچيدگي روي بهتر محدوده ، باشد مي آماري اوراکل فراخواني هر براي

ساده نمونه از که آماري جوي و پرس هر تخمين و بزرگ نمونه يک ترسيم شامل سازيباشد. مي کند مي استفاده

که هايي نمونه از که نويز بندي طبقه مدل با تواند ميSQ الگوريتم که داد نشان کرنز جو و پرس فضاي اينجا در ) که شود سازي شبيه است وابسته به آن اندازه

با تواند ميSQ الگوريتم که داد نشان نيز (. دکاتر باشد ميA به مربوطSQ درالگوريتم سازي شبيه ، است وابسته به آن هاي اندازه که هايي نمونه از که بدخيم نويز مدل

است. وابسته به کند تحمل تواند مي اخير سازي شبيه که که بدخيم خطاي شود. ميزان آنکه به توجه با ، گردد تبديلSQ الگوريتم يک به تواند ميPAC آموزش الگوريتم هر تقريبا که گردد تبديل الگوريتمي بهPAC آموزش الگوريتم هر توان مي نتيجه اين مبناي بر

است وابسطه به نويز برابر در مقاوم ورژن اين دارد. پيچيدگي را نويز تحمل قابليت

Page 24: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

. بنابراين باشد ميSQ الگوريتم بهPAC آموزش الگوريتم تبديل از تابعي آنها خود که نويز برابر در پذير تحمل کهPAC شده تبديل ورژن پيچيدگي براي باال حد يک توان نميداد. نشان باشد مي

ضعيفSQ آموزش الگوريتم در آنکه بجز باشد مي قويSQ آموزش الگوريتم مانند عينا نرخ است الزم تنها فرضيه خروجي حالت اين ندارد. در وجود دقت پارامتر حالت اين

هر براي يعني باشد داشته از کمتر حدود در خطايي

به تواند مي ضعيفSQ آموزش الگوريتم که موضوع اين دادن نشان باشد. با ميP چند SQ الگوريتم تلورانس روي عمومي پايين حد يک کند پيدا ترقي قويSQ آموزش الگوريتم

مي شود. سپس مي تعريف وجو پرس الزم فضاي پيچيدگي روي عمومي باالي حد يک و نويز مقابل در مقاوم کهPAC آموزش الگوريتم پيچيدگي براي عمومي باالي حد يک توانداد. نشان آماري جو و پرس مدل روي است

وب در نويز - پاکسازي6 كرده اطالعات آوري جمع براي محبوب مكان يك به تبديل راwww اينترنت سريع توسعه يا مفيد دانش كشف براي مهم وظيفه يك به تبديل وب روي بر كاوي داده . بنابراين است

. است شده وب اطالعات بهبود منظور به وب صفحات روي بر محلي نويزهاي حذف و كشف روي بر كار اين در

مي داده نشان بخش اين . در شوند مي متمركز وب صفحات بندي طبقه مانند وب كارآيي آسيب كاوي داده دقت به مي تواند ، وب صفحات برروي محلي نويزهاي كه که شود

است. مفيد كاوي داده نتايج بهبود براي وب صفحات پاكسازي . بنابراين برساند صفحه يك محتويات كشف برايHTML صفحات به نسبتXML وب صفحات چه اگر

اما ، كرد استفاده اصلي محتويات يافتن برايXML تگ هاي از مي توان و هستند قدرتمند تر. هستندHTML صورت به كنوني وب صفحات اكثر وجود اين با

ثابت روش هاي يا ها قالب از وب صفحات : در است صورت اين به پاكسازي تكنيك ، متن مانند واقعي اش محتوايات و قالب ها كه صفحه از . بخش هايي شود مي استفاده

كه مي رسد نظر به ، مي شوند ظاهر سايت ديگر صفحات از بسياري در كه پيوند ، تصوير متفاوت صفحات ديگر از محتوياتش و قالب كه صفحه از بخش هايي . و باشد نويز دارايباشد. مي صفحه يك اصلي محتويات است

Page 25: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

پس و مي شود ( معرفيStyle tree) روش درخت نام به درختي ساختار ابتدا بخش اين در نويز داراي روش درخت هاي بخش كدام اينكه گيري تصميم معيار مورد در اطالعاتي

معروف كاوي وب وظيفه دو روي بر آزمايشي نتايج شامل ها بخش كدام اينکه و هستند كه شود مي داده نشان و شود مي ارائه وب صفحات بندي كالس و بندي دسته مانند

مثال هستند. بعنوان اتوماتيك صورت به كاوي داده نتايج ارتقاي به قادر پاكسازي تكنيك 954/0 به625/0 از پاكسازي از بعد دقت متوسط بندي كالس در که دهد مي نشان نتايج

يافت. افزايش مربوط - كارهاي6-2

كارهاي ، است مهم وظيفه يك وب صفحات پاكسازي چه اگر زمينه اين در كمي نسبتا صفحات در مرتبط هاي بالك كردن مشخص و وب صفحه بندي . تقسيم است شده انجام

وظايف اين اجراي به قادر است. سيستم وب صفحات پاكسازي در مهم كار دو مختلفاست. كاوي داده براي داده پاكسازي شامل كارها و است اتوماتيك بصورت

پيشنهادي - تكنيك6-3

يك در وب صفحات اصلي محتويات و قالب ها آناليز بر مبتني پيشنهادي پاكسازي تكنيك و روش ها نمايش براي مناسب داده ساختار يافتن وظيفه اولين است. بنابراين سايت وب

مي ارائه هدف اين ( برايST) روش درخت يك که است وب صفحات اصلي محتويات نمايش براي ( كه مستند گراي شي ) مدلDOM درختي مدل بر مروري با شود. ابتدا

براي اينها كه شود مي داده نشان و شود مي آغاز مي رود كار به وب صفحه داده ساختارنيستند. كافي هدف حصول DOM درخت - مدل6-3-1

، مثل ها و داخلي نودهاي ها تگ كه استDOM درخت يك با مرتبطHTML صفحه هر يا قالب ها نمايش برايDOM درخت باشند. اگرچه مي درخت برگ هاي لينك ها و تصويرها

محتواي و روش اين كلي نمايش مطالعه است كافيHTML صفحات نمايش روش برايDOM درخت هاي . بنابراين است سخت بسيار آنها پاكسازي برايHTML مجموعه

دارد. وجود هدف اين براي قوي تر ساختار يك به نياز و نيستند كافي پاكسازي كار

Page 26: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

نمونه.DOM درخت يک . نمايش4شکل ( ST) روش درخت - مدل6-3-2

هستند عنصر نودهاي و روش نودهاي نام با نودها از نوع دو شامل كه روش درخت يكشود. مي تعريف

روش. درخت و وDOM درخت . نمايش5شکل

دارد مولفه دو كه مي باشد نمايش روش يا قالب يك ( نمايشگرS) روش نود يك: تعريف صفحاتي تعدادn و عنصر نودهاي از ترتيبيES كه مي شود داده ( نمايشES , n) با و

دارد. نود از سطح اين در خاص روش اين كه استمي شود: داده ( نشانTAG , Attr , Ss) با كه دارد مؤلفه سهE عنصر نود: تعريف

TAgتصوير. ، جدول مثال عنوان به است نشانه يا تگ نامAttrيعني تگ نمايش خصوصيات از مجموعه ايBgcolor = red , width =100 و غيره.

Page 27: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

Ssزير روش نودهاي از مجموعه اي E. با را عنصر نود کار راحتي . براي باشد ميDOM درخت در تگ نود با متناظر عنصر نودشود. مي تعريف تگ هايش هاي نام از ترتيبي با را روش نود و تگ هايش نام

به باال مدل با را آن سپس و شود مي داده تشكيل صفحه هر برايDOM درخت يك ابتدا كه ، روش درخت درE مانند عنصر نود هر مي كنند. براي ادغام روش درخت در پايين

DOM درخت در راT متناظر تگ نود داراي مانندDOM درخت درT تگ فرزند نودهاي ترتيب آيا كه شود مي بررسي ، باشد مي

صفحات تعداد راحتي به باشد مثبت جواب خير. اگر يا است روش درخت در نودها ترتيب ادامه حرکتDOM و روش درخت پايين سمت به و شود مي داده افزايش راS روش نود نود زير جديد روش نود يك باشد منفي جواب شود. اگر ادغام نيز نودها بقيه تا يابد مي

مي شود. كپي روش درخت درDOM درختT تگ نود درخت زير و شود مي ايجادE عنصرST در نويز داراي عنصر - تعيين6-3-3

: است زير بصورت نويز تعريف اينجا در و است تر مهم باشد داشته بيشتري نمايشي روش هاي عنصر نود يك هرچه(1

برعكس.عكس. بر و است مهم تر نود آن باشد متعدد عنصر نود يك واقعي محتويات چه هر(2

L وE شامل كه صفحاتي تعدادm اگر ،SST درE مانند عنصر نود يك براي: تعريف

مي شود:. تعريف زير صورت بهE نود اهميت باشد روش نودهاي فرزندان تعداد

باشد كوچك l. اگر كند استفاده روش نود امينi از وب صفحه يك كه است اين احتمال روش هاي شاملE است. اگر كم شود ظاهر مختلف هاي روش درE اينكه احتمال

مي شود. زياد ميزان باشد مختلفي نمايشي باE تركيبي اهميت باشد|L=|E. Ss اگرSST درE دروني عنصر نود يك براي: تعريف

: مي شود مشخص

و

Page 28: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

( باشد تصوير ) كلمه خاصيت ها تعدادl اگر ،SST درE برگ عنصر نود يك براي: تعريف: مي شود تعريف زير صورت بهE تركيبي اهميت باشدE شامل صفحات تعدادm و

در اطالعات انتروپي و باشد ميE ظرفيت واقعي ويژگي رابطه اين در کهباشد: ميE ظرفيت داخل

باشد. مي شود ظاهرj صفحه ازE در اينکه احتمال برابر رابطه اين در کهنويز - كشف6-4

اهميت خودش و نسلها همه اگر است نويز دارايSST درE نود مي گوييم: تعريفباشد. داشتهt مشخص آستانه حد يك از كمتر تركيبي

چك . ابتدا است آمدهSST در نويزها شناسايي برايMarknoise(E) الگوريتم زير در نويز داراي آنها از يكي خير. اگر يا هستند نويز داراي خودش وE نسلهاي همه كه مي كند اهميت و باشد نويز داراي نسل هايش همه نيست. اگر نويز دارايE صورت آن در نباشد

است. نويز دارايE صورت آن در باشد كوچكE تركيبي

Page 29: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

نويز داراي آن جد نودهاي از كدام هيچ و باشد نويز دارايE عنصر نود يك اگر: تعريفاست. حداکثر نويز دارايE عنصر نود اينصورت در نباشد

باE نود اينصورت در نباشد نويز داراي نسل هيچ شاملSST درE عنصر نود اگر: تعريفاست. معني

E نود اينصورت در نباشد معني با داراي نود هيچ نسلE معناي با عنصر نود اگر: تعريف

معناست. با ، حداکثر معناي با نودهاي همهMarkMeaningFul(E) الگوريتمMarkNoise(E) الگوريتم مانند

مي كند. مشخص را حداکثر نويز داراي حداکثر نودهاي و حداکثر معناي با عنصر نودهاي تشخيص به قادر آنجائيكه از

از رفتن پايين طي باشد. در نمي نويز حذف و كشف برايSST كل طي به نياز هستيم نسل هايش نود آن كه گفت مي توان شد پيدا نويز داراي حداکثر نود يك اگر ،SST ريشه حذف با ساده تر درخت يك به راSST مي توان راحتي به هستند. بنابراين نويز داراي

كرد. تبديل ، معنا داراي حداکثر نودهاي و حداکثر نويز داراي نود نسل هاي به مي توان است نويز داراي يا معني باSST در مرتبط عنصر نود كه اين كردن چك با

برد. پي نود آن بودن نويز داراي يا بودن بامعني- نتيجه7

Page 30: هدف پیدا کردن یک رابطه کلی بین توزیع احتمال ...ce.aut.ac.ir/~shiry/lecture/machine-learning/tutorial... · Web viewدر اينجا مقادير

آنکه اول ، کرد اتخاذ را روش در توان مي نويز با برخورد در شده گفته مطالب به توجه با که مواردي در و باشد مي کمي انعطاف داراي روش اين که کرد حذف را نويز توان مي

در و گيرد مي قرار استفاده مورد است دسترس در زياد ويژگيهاي با زياد اطالعاتشود. مي استفاده نويزي آموزش روشهاي از باشد نمي پاکسازي قابل نويز که مواردي

- مراجع8[1] L. Yi and B. Liu. Eliminating noisy information in web pages for data mining. In

ACM Conf. on Knowledge Discovery and Data Mining (SIGKDD), 2003

[2] Noise Tolerant Algorithms for Learning and Searching. by. Javed Alexander

Aslam. SM, Electrical Engineering and Computer Science

[3] Data Mining from Noisy Learners. John M. Pierre 2004

]4[ P. E. Laird. Learning from Good and Bad Data. Kluwer Academic, Boston, 1988.

]5[ D. Lewis. Evaluating Text Categorization. In Proceedings of the Speech and Natural Language Workshop, 312-318, 1991.