34
دا ام خ ه ن ب د ي ق م دي ي ب ه وش خConstrained Clustering

خوشهبندي مقيد Constrained Clustering

  • Upload
    kamal

  • View
    216

  • Download
    1

Embed Size (px)

DESCRIPTION

خوشه‌بندي مقيد Constrained Clustering. فهرست مطالب. مقدمه ای بر خوشه بندی ارزیابی خوشه بندی خوشه بندی مقید چالشها و راهکارها پژوهش های انجام شده. خوشه‌بندي. خوشه‌بندي گروه‌بندي داده‌ها به گونه‌اي که خصوصيات مشترک بين داده‌هاي هر گروه زياد و خصوصيات مشترک بين گروه‌هاي متفاوت کم باشد. - PowerPoint PPT Presentation

Citation preview

Page 1: خوشهبندي مقيد Constrained Clustering

به نام خدا

خوشه بندي مقيدConstrained Clustering

Page 2: خوشهبندي مقيد Constrained Clustering

2

فهرست مطالب

مقدمه ای بر خوشه بندی●ارزیابی خوشه بندی●خوشه بندی مقید●چالشها و راهکارها●پژوهش های انجام شده●

Page 3: خوشهبندي مقيد Constrained Clustering

3

خوشه بندي

خوشه بندي●بين داده هاي هر گروه زياد و خصوصيات مشترک گروه بندي داده ها به گونه اي که

خصوصيات مشترک بين گروه هاي متفاوت کم باشد.: خصوصيات مشترک؟ چگونگي تشخيص خصوصيات؟1سوال

طيف وسيع كاربرد●يادگيري ماشين، هوش مصنوعي، الگوشناسي، وب كاوي، تحليل پايگاه داده، پردازش

متون و تصاوير، علوم پزشكي، علوم اجتماعي، اقتصاد و تجارت، علوم كامپيوتر، پزشكي

خوشه بندي به عنوان يك مساله مشكل ●مهم ترين داليل مشكل بودن مساله:●

ذات بدون ناظر بودن الگوريتم هاي خوشه بندي●ابهام در تعريف خوشه مناسب●مشكل بودن تعريف معيار فاصله مناسب●تعريف تابع هدف مناسب به منظور خوشه بندي●

عدم وجود الگوريتم جامع براي حل همه مسائل خوشه بندي●

Page 4: خوشهبندي مقيد Constrained Clustering

4

روشهاي خوشه بندي )دسته بندی(

Page 5: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ

چند مساله●تمایل به خوشه بندی شدن داده؟●

آیا یک ساختار غیر تصادفی در داده وجود ●دارد؟

استفاده از تستهای آماری●

تعداد خوشه ها؟●برخی الگوریتم ها نیاز به دانستن تعداد ●

خوشه ها قبل از خوشه بندی دارند.راهکارهای تقسیم و ادغام با معیارهایی از ●

قبیل واریانس درون و برون خوشه ای

کیفیت خوشه بندی انجام شده؟●خوشه بندی انجام شده چقدر خوب ●

است؟مناسب ارائه معیارهای ارزیابی●

5

Page 6: خوشهبندي مقيد Constrained Clustering

شرط(4ویژگیهای یک معیار ارزیابی مناسب )

●Cluster homogeneityهر چه خلوص در خوشه بندی )با دانستن کالس اصلی ●

داده ها، داده های هم کالس در یک خوشه قرار بگیرند( بیشتر باشد این معیار بیشتر است.

داده های دسته های متفاوت در خوشه های متفاوت ●قرار داده شوند.

6

Page 7: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Cluster completenessCluster homogeneityنقطه مقابل ●داده ها ی دسته های یکسان در خوشه های یکسان ●

قرار داده شوند.

7

Page 8: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Rag bagدر برخی مسایل دسته ای به نام »متفرقه« داریم که شامل ●

داده هایی است که نمی توانند با داده های دیگر کالسها هم خوشه شوند.

جریمه انتساب این نوع داده ها به یک خوشه خالص بیشتر از ●انتساب آنها به خوشه متفرقه است .

8

Page 9: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Small cluster preservationهدف: ممانعت از شکسته شدن دسته های کوچک اشیا●تقسیم یک دسته کوچک از اشیا به دسته های ریز ●

بسیار خطرناکتر از تقسیم دسته بزرگ به دسته های کوچکتر است.

حذف outlierداده ها ممکن است با فرض نویز یا ●شوند.

9

Page 10: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

Bcubedمعیار ●

10

Page 11: خوشهبندي مقيد Constrained Clustering

11

مسائل مطرح خوشه بندي

ذات بدون ناظر مساله●پيش فرضهاي اوليه●

ساختار داده ها●معيارهاي فاصله و شباهت●تابع هدف●

(Model mismatch)عدم انطباق پيش فرضها و مدل واقعي ●

راه حل؟استفاده از اطالعات جانبي

براي كمك به الگوريتم هاي خوشه بندي جهت توليد فرض هاي صحيح

Page 12: خوشهبندي مقيد Constrained Clustering

اطالعات جانبي●ساختار داده ها●هدف خوشه بندي●شكل خوشه ها●بيشينه اندازه خوشه ها●حداكثر اعضاي هر خوشه●قيدهاي در سطح نمونه●

Must-link(ML)قيدهاي بايد-پيوند ●

Cannot-link(CL)قيدهاي نفي-پيوند ●

قابليت اين قيدها در تعريف قيدهاي پيچيده تر●: با ايجاد εقيد وجود حداقل يك همسايه در فاصله ●

قيد بايد-پيوند ميان هر داده و حداقل يكي از نقاط εموجود در همسايگي

12

استفاده از اطالعات جانبي در خوشه بندي

خوشه بندي مقيدConstrained Clustering

(Wagstaff 2000)

ML

CL

Page 13: خوشهبندي مقيد Constrained Clustering

13

مقيد )دسته بندي( خوشه بندي

Page 14: خوشهبندي مقيد Constrained Clustering

14

مقيد )دسته بندي ( خوشه بندي

مبتني بر ارضاء قيد:●ارضاء سخت: ●

ارضاء تمامي قيدها به طور كامل●رويكرد جستجوي حريصانه، عدم يافتن يك ●

جواب ممكن براي مساله حتي در صورت وجود جواب

●COP-KMEANS [Wagstaff01]

تا حد ممكن سعي در ارضاء ارضاء نرم: ●قيدها دارند.

روش ايده

PCKmeans [Bilenko04] عبارت جريمه براي نقض قيدها در تابع هدف

MPCKmeans [Bilenko04] عبارت جريمه براي نقض قيدها در تابع هدف و يادگيريمتريك

Page 15: خوشهبندي مقيد Constrained Clustering

15

مقيد )دسته بندي( خوشه بندي

سلسله مراتبي:●با تغيير الگوريتم هاي خوشه بندي ●

سلسله مراتبي قابليت برآورده كردن قيدها را نيز در آنها تعبيه مي نمايند.

خوشه بندي با ساختن دندروگرامي از ●داده ها

روش پايه:●ابتدا هر داده به عنوان يك خوشه درنظر گرفته مي شود.●عمل ادغام خوشه ها تا هنگامي كه ادغام آنها هيچ قيدي را نقض ●

نكند

Davidson [Davidson05]روش ●( محاسبه MLابتدا بستارهاي تراگذري مربوط به قيدهاي بايد-پيوند )●

مي شود تعداد نمونه هايي X1خوشه آغاز مي نمايد كه X1+rخوشه بندي را با ●

تعداد rاست كه هيچ قيد بايد-پيوندي بر روي آنها اعمال نشده و اجزاء همبند حاصل از قيدهاي بايد-پيوند است..

انتخاب دو نزديكترين خوشه و ادغام آنها تا زماني كه دو خوشه ●براي ادغام وجود دارند.

Page 16: خوشهبندي مقيد Constrained Clustering

16

مقيد )دسته بندي( خوشه بندي

تغيير ماتريس فاصله●استفاده از اطالعات قيدها قبل از ●

خوشه بندي براي تغيير ماتريس فاصله و استفاده از آن در

خوشه بندي نهاييKlein [Klein02]روش ●

Page 17: خوشهبندي مقيد Constrained Clustering

17

مقيد )دسته بندي( خوشه بندي

يادگيري معيار فاصله به عنوان ●محبوب ترين روش خوشه بندي مقيد

معيار فاصله اقليدسي به عنوان معيار ●فاصله متداول در فرايند خوشه بندي

ناكارامدي معيار فاصله اقليدسي در ●توصيف صحيح فاصله در يك مجموعه داده

نوعيمعيار فاصله ماهاالنوبيس بسيار مورد توجه ●

قرار گرفته است

Page 18: خوشهبندي مقيد Constrained Clustering

18

مزايا و مشكالت استفاده از قيدها در خوشه بندي

مزايا●[Wagstaff00]افزايش ميانگين دقت خوشه بندي ●[Wagstaff01b]توليد خوشه هايي به شكل دلخواه ●

مشكالت●(Feasibilityشدني بودن )●[Wagstaff06]مفيد نبودن هر مجموعه اي از قيدها ●

Page 19: خوشهبندي مقيد Constrained Clustering

19

چالش هاي موجود در خوشه بندي مقيد

با وجود الگويتم هاي بسيار در خوشه بندي مقيد چالشهايي در ●اين حوزه وجود دارد كه نيازمند تحقيق گسترده مي باشد.

Page 20: خوشهبندي مقيد Constrained Clustering

20

چالش هاي موجود در خوشه بندي مقيد

مجموعه قيدهاي متفاوت سودمندي ●متفاوتي براي الگوريتم هاي خوشه بندي

دارندقيدهايي كه الگوريتم خوشه بندي به ●

خودي خود قادر به استخراج آن از داده ها باشد، تاثير چنداني بر بهبود

دقت خوشه بندي نخواهد داشتتعيين سودمندي يك مجموعه قيد قبل ●

از خوشه بنديبه الگوريتم خوشه بندي اين قابليت را ●

مي دهد كه تصميم بگيرد كه آيا از يك مجموعه قيد در راستاي خوشه بندي استفاده

نمايد يا خير.انتخاب بهترين مجموعه قيد ممكن.●

بار انتخاب تصادفي مجموعه قيدهاي 1000از ● تايي، درصد مواردي كه سبب كاهش دقت 25

خوشه بندي در چند الگوريتم شده است. )جدول ([Davidson06]از

Page 21: خوشهبندي مقيد Constrained Clustering

21

چالش هاي موجود در خوشه بندي مقيد

-n(n نمونه، nدر يك مجموعه داده با ●قيد کانديد براي انتخاب وجود 2/(1.دارد

بهترين قيد چگونه است؟λانتخاب ●به گونه اي چالش اول را در خود دارد.●رفع اين چالش با معرفي معيارهاي ●

كارامد براي تعيين سودمندي يك مجموعه قيد، سبب كاهش هزينه

گردآوري قيدها ميگردد.

روشها●است كه ( L<n ) داده Lانتخاب قيدها از ميان ●

در آن هزينه گردآوري قيدها، فقط شامل داده مي باشد.Lبرچسب گذاري

[Basu04]پيمايش دورترين-اولين ●انتخاب فعال قيدها به كمك تشخيص نقاط ●

[Xu05 ]مرزي

Page 22: خوشهبندي مقيد Constrained Clustering

22

چالش هاي موجود در خوشه بندي مقيد

تمامي روش هاي خوشه بندي مقيد بر ●اين فرض استوارند كه انتشار محلي

اطالعات قيدها به همسايه ها ايمن بوده و مي تواند سبب بهبود نتيجه خوشه بندي

گردد.

مسائل مهم:●تشخيص ايمن بودن انتشار قيد بر روي ●

يك مجموعه داده خاصدرجه انتشار قيد به همسايه ها )تعيين ●

شعاع همسايگي بهينه و ...

Page 23: خوشهبندي مقيد Constrained Clustering

23

خوشه بندي مقيد با رويكرد انتخاب فعال قيدهامساله: خوشه بندي مقيد با رويكرد انتخاب فعال قيدها●

به حل مسالهتكرارشونده نگاه ●

oتعيين ميزان سودمندي يك قيد مشخص

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

oتعيين ميزان سودمندي يك مجموعه قيد

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

oتعيين ميزان سودمندي يك قيد مشخص

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

oتعيين ميزان سودمندي يك مجموعه قيد

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

فضايقيدها فضايقيدها

انتخاب قيدها و انتساب درجه اهميت به آنها

انتخاب قيدها و انتساب درجه اهميت به آنها

خوشه بندي مقيدخوشه بندي مقيدقيدهاقيدها

Page 24: خوشهبندي مقيد Constrained Clustering

24

خوشه بندی مقید

ارائه یک روش خوشه بندی مقید●مبتنی بر یادگیری معیار فاصله●حفظ ساختار را در حین تبدیل در نظر می گیرد.●درجه اهمیت قیدها را هم در نظر می گیرد●

Page 25: خوشهبندي مقيد Constrained Clustering

25

مدل خطي رويكرد دوم

در مدل خطي●d*Dيادگيري ماتريس تبديل ●

●WM و WCماتريس درجه اهميت قيدهاي بايد-پيوند و نفي-پيوند ●DM و DC ماتريس هاي قطري حاصل از جمع ستوني WM و WC به صورت مستقيم با رويكردهاي تجزيه طيفي قابل حل نمي باشد.● استفاده مي شود..A براي يافتن ماتريس بهينه [Xiang08]از روش ارائه شده در ●

Page 26: خوشهبندي مقيد Constrained Clustering

26

مدل غيرخطي رويكرد دوم

در مدل غيرخطي●استفاده از توابع هسته براي حالت غيرخطي●يادگيري ماتريس تبديل به صورت●تبديل يافته داده ها در فضاي هسته●

به صورت تركيب خطي از نقاط Aiنوشتن هر بردار ●

وجود دارد كه در نتيجه يك ماتريس●با جايگذاري در مدل اصلي داريم:●

تبديل بهينه نقاط به فضاي مقصد●

Page 27: خوشهبندي مقيد Constrained Clustering

27

انتخاب فعال قيدها )مستقل از الگوریتم خوشه بندی مقید(

o:مسائل مطرح

oتعيين ميزان سودمندي يك قيد مشخص

oبا استفاده از فاصله نقاط مرزی

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

o با تعریف فاصله قید کاندید با قیدهای

قبلی

oتعيين ميزان سودمندي يك مجموعه قيد

o حاصل جمع سودمندی قید با

درنظرگرفتن ترتیب

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

o:مسائل مطرح

oتعيين ميزان سودمندي يك قيد مشخص

oبا استفاده از فاصله نقاط مرزی

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

o با تعریف فاصله قید کاندید با قیدهای

قبلی

oتعيين ميزان سودمندي يك مجموعه قيد

o حاصل جمع سودمندی قید با

درنظرگرفتن ترتیب

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

o ایده: استفاده از اطالعات مرز

داده ها

o ایده: استفاده از اطالعات مرز

داده ها

Page 28: خوشهبندي مقيد Constrained Clustering

28

انتخاب فعال قیدهاتوزیع قیدها در فضای داده

Page 29: خوشهبندي مقيد Constrained Clustering

29

به حل مساله در ادامه راهتكرارشونده نگاه

- سودمندی قید بسیار به الگوریتمی که از آن استفاده می کند وابسته است.

- ارائه راهکاری برای انتخاب قید در حین خوشه بندی

فضايقيدها فضايقيدها

انتخاب فعال قيدها

انتخاب فعال قيدها

خوشه بندي مقيد

خوشه بندي مقيد

قيدها

قيدها

Page 30: خوشهبندي مقيد Constrained Clustering

30

(1منابع )[Bilenko04]. M. Bilenko, S. Basu, and R. J. Mooney, “Integrating constraints and metric learning in semi-

supervised clustering,” In Proceedings of International Conference on Machine Learning (ICML), 2004.

[Wagstaff01]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.

[Davidson05]. I. Davidson and S. S. Ravi, “Clustering with constraints: Feasibility issues and the k-means algorithm,” In Proceedings of SIAM International Conference on Data Mining, 2005.

[Klein02]. D. Klein, S. D. Kamvar, and C. D. Manning, “From instance-level constraints to space-level constraints: Making the most of prior knowledge in data clustering,” In Proceedings of the Nineteenth International Conference on Machine Learning, ICML ’02, pp.307–314, 2002.

[Bar-Hillel03] A. Bar-Hillel, T. Hertz, N. Shental, and D. Weinshall, “Learning distance functions using equivalence relations,” In Proceedings of International Conference on Machine Learning (ICML), pp.11–18, 2003.

[Xing02]. E. P.Xing, A.Y.Ng,M. I. Jordan, and S. J. Russell, “Distancemetric learningwith application to clustering with side-information,” In Proceedings of Neural Information Processing Systems (NIPS), pp.505–512, 2002.

Page 31: خوشهبندي مقيد Constrained Clustering

31

(2منابع )[Xiang08]. S. Xiang, F. Nie, and C. Zhang, “Learning a mahalanobis distance metric for data

clustering and classification,” Pattern Recognition, Vol.41, No.12, pp.3600–3612, 2008.

[Wang11]. F. Wang, “Semisupervised metric learning by maximizing constraint margin,” IEEE Transactions on Systems, Man, and Cybernetics, Part B, Vol.41, No.4, pp.931–939, 2011.

[Li08]. Z. Li, J. Liu, and X. Tang, “Pairwise constraint propagation by semidefinite programming for semi-supervised classification,” In Proceedings of the 25th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.576–583, 2008.

[Soleymani10]. M. S. Baghshah and S. B. Shouraki, “Non-linearmetric learning using pairwise similarity and dissimilarity constraints and the geometrical structure of data,” Pattern Recognition, Vol.43, No.8, pp.2982–2992, 2010.

[Wagstaff00 ]. K.Wagstaff and C. Cardie, “Clustering with instance-level constraints,” In Proceedings of the Seventeenth International Conference on Machine Learning (ICML 2000), pp.1103–1110, 2000.

[Wagstaff01b]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.

Page 32: خوشهبندي مقيد Constrained Clustering

32

(3منابع )[Wagstaff06]. K. Wagstaff, “Value, cost, and sharing: Open issues in constrained clustering,” In

Proceedings of 5th International Workshop on Knowledge Discovery in Inductive Databases, KDID 2006, pp.1–10, 2006.

[Basu04]. S. Basu, A. Banerjee, and R. J. Mooney, “Active semi-supervision for pairwise constrained clustering,” In Proceedings of the Fourth SIAM International Conference on Data Mining, pp.333–344, 2004.

[Xu05]. Q. Xu, M. desJardins, and K. L. Wagstaff, “Active constrained clustering by examining spectral eigen-vectors,” In Proceedings of the 8th international conference on Discovery Science, DS’05, pp.294–307, 2005.

[Davidson06]. I. Davidson, K. Wagstaff, and S. Basu, “Measuring constraint-set utility for partitional clustering algorithms,” In Proceedings of Pacific-Asia Conference on Knowledge Discovery and DataMining (PAKDD), pp.115–126, 2006.

[Mallapragada08]. P. K. Mallapragada, R. Jin, and A. K. Jain, “Active query selection for semi-supervised clustering,” In Proceedings of International Conference on Pattern Recognition, pp.1–4, 2008.

[Vu12]. V.-V. Vu, N. Labroche, and B. Bouchon-Meunier, “Improving constrained clustering with active query selection,” Pattern Recognition, Vol.45, No.4, pp.1749–1758, 2012.

Page 33: خوشهبندي مقيد Constrained Clustering

33

(4منابع )[Wang10]. X. Wang and I. Davidson, “Active spectral clustering,” In Proceedings of International

Conference on Data Mining (ICDM), pp.561–568, 2010.

[Hoi07]. S. C. H. Hoi, R. Jin, and M. R. Lyu, “Learning nonparametric kernel matrices from pairwise constraints,” In Proceedings of the 24th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.361–368, 2007.

[Liu10]. W. Liu, X. Tian, D. Tao, and J. Liu, “Constrained metric learning via distance gap maximization,” In Proceedings of AAAI Conference on Artificial Intelligence, AAAI 2010, 2010.

[Grira08]. N.Grira, M. Crucianu, andN. Boujemaa, “Active semi-supervised fuzzy clustering,” Pattern Recognition, Vol.41, No.5, pp.1834–1844, 2008.

Page 34: خوشهبندي مقيد Constrained Clustering

34

با تشکر