خوشهبندي مقيد Constrained Clustering

Preview:

DESCRIPTION

خوشه‌بندي مقيد Constrained Clustering. فهرست مطالب. مقدمه ای بر خوشه بندی ارزیابی خوشه بندی خوشه بندی مقید چالشها و راهکارها پژوهش های انجام شده. خوشه‌بندي. خوشه‌بندي گروه‌بندي داده‌ها به گونه‌اي که خصوصيات مشترک بين داده‌هاي هر گروه زياد و خصوصيات مشترک بين گروه‌هاي متفاوت کم باشد. - PowerPoint PPT Presentation

Citation preview

به نام خدا

خوشه بندي مقيدConstrained Clustering

2

فهرست مطالب

مقدمه ای بر خوشه بندی●ارزیابی خوشه بندی●خوشه بندی مقید●چالشها و راهکارها●پژوهش های انجام شده●

3

خوشه بندي

خوشه بندي●بين داده هاي هر گروه زياد و خصوصيات مشترک گروه بندي داده ها به گونه اي که

خصوصيات مشترک بين گروه هاي متفاوت کم باشد.: خصوصيات مشترک؟ چگونگي تشخيص خصوصيات؟1سوال

طيف وسيع كاربرد●يادگيري ماشين، هوش مصنوعي، الگوشناسي، وب كاوي، تحليل پايگاه داده، پردازش

متون و تصاوير، علوم پزشكي، علوم اجتماعي، اقتصاد و تجارت، علوم كامپيوتر، پزشكي

خوشه بندي به عنوان يك مساله مشكل ●مهم ترين داليل مشكل بودن مساله:●

ذات بدون ناظر بودن الگوريتم هاي خوشه بندي●ابهام در تعريف خوشه مناسب●مشكل بودن تعريف معيار فاصله مناسب●تعريف تابع هدف مناسب به منظور خوشه بندي●

عدم وجود الگوريتم جامع براي حل همه مسائل خوشه بندي●

4

روشهاي خوشه بندي )دسته بندی(

ارزیابی کالسترینگ

چند مساله●تمایل به خوشه بندی شدن داده؟●

آیا یک ساختار غیر تصادفی در داده وجود ●دارد؟

استفاده از تستهای آماری●

تعداد خوشه ها؟●برخی الگوریتم ها نیاز به دانستن تعداد ●

خوشه ها قبل از خوشه بندی دارند.راهکارهای تقسیم و ادغام با معیارهایی از ●

قبیل واریانس درون و برون خوشه ای

کیفیت خوشه بندی انجام شده؟●خوشه بندی انجام شده چقدر خوب ●

است؟مناسب ارائه معیارهای ارزیابی●

5

شرط(4ویژگیهای یک معیار ارزیابی مناسب )

●Cluster homogeneityهر چه خلوص در خوشه بندی )با دانستن کالس اصلی ●

داده ها، داده های هم کالس در یک خوشه قرار بگیرند( بیشتر باشد این معیار بیشتر است.

داده های دسته های متفاوت در خوشه های متفاوت ●قرار داده شوند.

6

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Cluster completenessCluster homogeneityنقطه مقابل ●داده ها ی دسته های یکسان در خوشه های یکسان ●

قرار داده شوند.

7

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Rag bagدر برخی مسایل دسته ای به نام »متفرقه« داریم که شامل ●

داده هایی است که نمی توانند با داده های دیگر کالسها هم خوشه شوند.

جریمه انتساب این نوع داده ها به یک خوشه خالص بیشتر از ●انتساب آنها به خوشه متفرقه است .

8

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Small cluster preservationهدف: ممانعت از شکسته شدن دسته های کوچک اشیا●تقسیم یک دسته کوچک از اشیا به دسته های ریز ●

بسیار خطرناکتر از تقسیم دسته بزرگ به دسته های کوچکتر است.

حذف outlierداده ها ممکن است با فرض نویز یا ●شوند.

9

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

Bcubedمعیار ●

10

11

مسائل مطرح خوشه بندي

ذات بدون ناظر مساله●پيش فرضهاي اوليه●

ساختار داده ها●معيارهاي فاصله و شباهت●تابع هدف●

(Model mismatch)عدم انطباق پيش فرضها و مدل واقعي ●

راه حل؟استفاده از اطالعات جانبي

براي كمك به الگوريتم هاي خوشه بندي جهت توليد فرض هاي صحيح

اطالعات جانبي●ساختار داده ها●هدف خوشه بندي●شكل خوشه ها●بيشينه اندازه خوشه ها●حداكثر اعضاي هر خوشه●قيدهاي در سطح نمونه●

Must-link(ML)قيدهاي بايد-پيوند ●

Cannot-link(CL)قيدهاي نفي-پيوند ●

قابليت اين قيدها در تعريف قيدهاي پيچيده تر●: با ايجاد εقيد وجود حداقل يك همسايه در فاصله ●

قيد بايد-پيوند ميان هر داده و حداقل يكي از نقاط εموجود در همسايگي

12

استفاده از اطالعات جانبي در خوشه بندي

خوشه بندي مقيدConstrained Clustering

(Wagstaff 2000)

ML

CL

13

مقيد )دسته بندي( خوشه بندي

14

مقيد )دسته بندي ( خوشه بندي

مبتني بر ارضاء قيد:●ارضاء سخت: ●

ارضاء تمامي قيدها به طور كامل●رويكرد جستجوي حريصانه، عدم يافتن يك ●

جواب ممكن براي مساله حتي در صورت وجود جواب

●COP-KMEANS [Wagstaff01]

تا حد ممكن سعي در ارضاء ارضاء نرم: ●قيدها دارند.

روش ايده

PCKmeans [Bilenko04] عبارت جريمه براي نقض قيدها در تابع هدف

MPCKmeans [Bilenko04] عبارت جريمه براي نقض قيدها در تابع هدف و يادگيريمتريك

15

مقيد )دسته بندي( خوشه بندي

سلسله مراتبي:●با تغيير الگوريتم هاي خوشه بندي ●

سلسله مراتبي قابليت برآورده كردن قيدها را نيز در آنها تعبيه مي نمايند.

خوشه بندي با ساختن دندروگرامي از ●داده ها

روش پايه:●ابتدا هر داده به عنوان يك خوشه درنظر گرفته مي شود.●عمل ادغام خوشه ها تا هنگامي كه ادغام آنها هيچ قيدي را نقض ●

نكند

Davidson [Davidson05]روش ●( محاسبه MLابتدا بستارهاي تراگذري مربوط به قيدهاي بايد-پيوند )●

مي شود تعداد نمونه هايي X1خوشه آغاز مي نمايد كه X1+rخوشه بندي را با ●

تعداد rاست كه هيچ قيد بايد-پيوندي بر روي آنها اعمال نشده و اجزاء همبند حاصل از قيدهاي بايد-پيوند است..

انتخاب دو نزديكترين خوشه و ادغام آنها تا زماني كه دو خوشه ●براي ادغام وجود دارند.

16

مقيد )دسته بندي( خوشه بندي

تغيير ماتريس فاصله●استفاده از اطالعات قيدها قبل از ●

خوشه بندي براي تغيير ماتريس فاصله و استفاده از آن در

خوشه بندي نهاييKlein [Klein02]روش ●

17

مقيد )دسته بندي( خوشه بندي

يادگيري معيار فاصله به عنوان ●محبوب ترين روش خوشه بندي مقيد

معيار فاصله اقليدسي به عنوان معيار ●فاصله متداول در فرايند خوشه بندي

ناكارامدي معيار فاصله اقليدسي در ●توصيف صحيح فاصله در يك مجموعه داده

نوعيمعيار فاصله ماهاالنوبيس بسيار مورد توجه ●

قرار گرفته است

18

مزايا و مشكالت استفاده از قيدها در خوشه بندي

مزايا●[Wagstaff00]افزايش ميانگين دقت خوشه بندي ●[Wagstaff01b]توليد خوشه هايي به شكل دلخواه ●

مشكالت●(Feasibilityشدني بودن )●[Wagstaff06]مفيد نبودن هر مجموعه اي از قيدها ●

19

چالش هاي موجود در خوشه بندي مقيد

با وجود الگويتم هاي بسيار در خوشه بندي مقيد چالشهايي در ●اين حوزه وجود دارد كه نيازمند تحقيق گسترده مي باشد.

20

چالش هاي موجود در خوشه بندي مقيد

مجموعه قيدهاي متفاوت سودمندي ●متفاوتي براي الگوريتم هاي خوشه بندي

دارندقيدهايي كه الگوريتم خوشه بندي به ●

خودي خود قادر به استخراج آن از داده ها باشد، تاثير چنداني بر بهبود

دقت خوشه بندي نخواهد داشتتعيين سودمندي يك مجموعه قيد قبل ●

از خوشه بنديبه الگوريتم خوشه بندي اين قابليت را ●

مي دهد كه تصميم بگيرد كه آيا از يك مجموعه قيد در راستاي خوشه بندي استفاده

نمايد يا خير.انتخاب بهترين مجموعه قيد ممكن.●

بار انتخاب تصادفي مجموعه قيدهاي 1000از ● تايي، درصد مواردي كه سبب كاهش دقت 25

خوشه بندي در چند الگوريتم شده است. )جدول ([Davidson06]از

21

چالش هاي موجود در خوشه بندي مقيد

-n(n نمونه، nدر يك مجموعه داده با ●قيد کانديد براي انتخاب وجود 2/(1.دارد

بهترين قيد چگونه است؟λانتخاب ●به گونه اي چالش اول را در خود دارد.●رفع اين چالش با معرفي معيارهاي ●

كارامد براي تعيين سودمندي يك مجموعه قيد، سبب كاهش هزينه

گردآوري قيدها ميگردد.

روشها●است كه ( L<n ) داده Lانتخاب قيدها از ميان ●

در آن هزينه گردآوري قيدها، فقط شامل داده مي باشد.Lبرچسب گذاري

[Basu04]پيمايش دورترين-اولين ●انتخاب فعال قيدها به كمك تشخيص نقاط ●

[Xu05 ]مرزي

22

چالش هاي موجود در خوشه بندي مقيد

تمامي روش هاي خوشه بندي مقيد بر ●اين فرض استوارند كه انتشار محلي

اطالعات قيدها به همسايه ها ايمن بوده و مي تواند سبب بهبود نتيجه خوشه بندي

گردد.

مسائل مهم:●تشخيص ايمن بودن انتشار قيد بر روي ●

يك مجموعه داده خاصدرجه انتشار قيد به همسايه ها )تعيين ●

شعاع همسايگي بهينه و ...

23

خوشه بندي مقيد با رويكرد انتخاب فعال قيدهامساله: خوشه بندي مقيد با رويكرد انتخاب فعال قيدها●

به حل مسالهتكرارشونده نگاه ●

oتعيين ميزان سودمندي يك قيد مشخص

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

oتعيين ميزان سودمندي يك مجموعه قيد

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

oتعيين ميزان سودمندي يك قيد مشخص

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

oتعيين ميزان سودمندي يك مجموعه قيد

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

فضايقيدها فضايقيدها

انتخاب قيدها و انتساب درجه اهميت به آنها

انتخاب قيدها و انتساب درجه اهميت به آنها

خوشه بندي مقيدخوشه بندي مقيدقيدهاقيدها

24

خوشه بندی مقید

ارائه یک روش خوشه بندی مقید●مبتنی بر یادگیری معیار فاصله●حفظ ساختار را در حین تبدیل در نظر می گیرد.●درجه اهمیت قیدها را هم در نظر می گیرد●

25

مدل خطي رويكرد دوم

در مدل خطي●d*Dيادگيري ماتريس تبديل ●

●WM و WCماتريس درجه اهميت قيدهاي بايد-پيوند و نفي-پيوند ●DM و DC ماتريس هاي قطري حاصل از جمع ستوني WM و WC به صورت مستقيم با رويكردهاي تجزيه طيفي قابل حل نمي باشد.● استفاده مي شود..A براي يافتن ماتريس بهينه [Xiang08]از روش ارائه شده در ●

26

مدل غيرخطي رويكرد دوم

در مدل غيرخطي●استفاده از توابع هسته براي حالت غيرخطي●يادگيري ماتريس تبديل به صورت●تبديل يافته داده ها در فضاي هسته●

به صورت تركيب خطي از نقاط Aiنوشتن هر بردار ●

وجود دارد كه در نتيجه يك ماتريس●با جايگذاري در مدل اصلي داريم:●

تبديل بهينه نقاط به فضاي مقصد●

27

انتخاب فعال قيدها )مستقل از الگوریتم خوشه بندی مقید(

o:مسائل مطرح

oتعيين ميزان سودمندي يك قيد مشخص

oبا استفاده از فاصله نقاط مرزی

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

o با تعریف فاصله قید کاندید با قیدهای

قبلی

oتعيين ميزان سودمندي يك مجموعه قيد

o حاصل جمع سودمندی قید با

درنظرگرفتن ترتیب

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

o:مسائل مطرح

oتعيين ميزان سودمندي يك قيد مشخص

oبا استفاده از فاصله نقاط مرزی

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

o با تعریف فاصله قید کاندید با قیدهای

قبلی

oتعيين ميزان سودمندي يك مجموعه قيد

o حاصل جمع سودمندی قید با

درنظرگرفتن ترتیب

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

o ایده: استفاده از اطالعات مرز

داده ها

o ایده: استفاده از اطالعات مرز

داده ها

28

انتخاب فعال قیدهاتوزیع قیدها در فضای داده

29

به حل مساله در ادامه راهتكرارشونده نگاه

- سودمندی قید بسیار به الگوریتمی که از آن استفاده می کند وابسته است.

- ارائه راهکاری برای انتخاب قید در حین خوشه بندی

فضايقيدها فضايقيدها

انتخاب فعال قيدها

انتخاب فعال قيدها

خوشه بندي مقيد

خوشه بندي مقيد

قيدها

قيدها

30

(1منابع )[Bilenko04]. M. Bilenko, S. Basu, and R. J. Mooney, “Integrating constraints and metric learning in semi-

supervised clustering,” In Proceedings of International Conference on Machine Learning (ICML), 2004.

[Wagstaff01]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.

[Davidson05]. I. Davidson and S. S. Ravi, “Clustering with constraints: Feasibility issues and the k-means algorithm,” In Proceedings of SIAM International Conference on Data Mining, 2005.

[Klein02]. D. Klein, S. D. Kamvar, and C. D. Manning, “From instance-level constraints to space-level constraints: Making the most of prior knowledge in data clustering,” In Proceedings of the Nineteenth International Conference on Machine Learning, ICML ’02, pp.307–314, 2002.

[Bar-Hillel03] A. Bar-Hillel, T. Hertz, N. Shental, and D. Weinshall, “Learning distance functions using equivalence relations,” In Proceedings of International Conference on Machine Learning (ICML), pp.11–18, 2003.

[Xing02]. E. P.Xing, A.Y.Ng,M. I. Jordan, and S. J. Russell, “Distancemetric learningwith application to clustering with side-information,” In Proceedings of Neural Information Processing Systems (NIPS), pp.505–512, 2002.

31

(2منابع )[Xiang08]. S. Xiang, F. Nie, and C. Zhang, “Learning a mahalanobis distance metric for data

clustering and classification,” Pattern Recognition, Vol.41, No.12, pp.3600–3612, 2008.

[Wang11]. F. Wang, “Semisupervised metric learning by maximizing constraint margin,” IEEE Transactions on Systems, Man, and Cybernetics, Part B, Vol.41, No.4, pp.931–939, 2011.

[Li08]. Z. Li, J. Liu, and X. Tang, “Pairwise constraint propagation by semidefinite programming for semi-supervised classification,” In Proceedings of the 25th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.576–583, 2008.

[Soleymani10]. M. S. Baghshah and S. B. Shouraki, “Non-linearmetric learning using pairwise similarity and dissimilarity constraints and the geometrical structure of data,” Pattern Recognition, Vol.43, No.8, pp.2982–2992, 2010.

[Wagstaff00 ]. K.Wagstaff and C. Cardie, “Clustering with instance-level constraints,” In Proceedings of the Seventeenth International Conference on Machine Learning (ICML 2000), pp.1103–1110, 2000.

[Wagstaff01b]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.

32

(3منابع )[Wagstaff06]. K. Wagstaff, “Value, cost, and sharing: Open issues in constrained clustering,” In

Proceedings of 5th International Workshop on Knowledge Discovery in Inductive Databases, KDID 2006, pp.1–10, 2006.

[Basu04]. S. Basu, A. Banerjee, and R. J. Mooney, “Active semi-supervision for pairwise constrained clustering,” In Proceedings of the Fourth SIAM International Conference on Data Mining, pp.333–344, 2004.

[Xu05]. Q. Xu, M. desJardins, and K. L. Wagstaff, “Active constrained clustering by examining spectral eigen-vectors,” In Proceedings of the 8th international conference on Discovery Science, DS’05, pp.294–307, 2005.

[Davidson06]. I. Davidson, K. Wagstaff, and S. Basu, “Measuring constraint-set utility for partitional clustering algorithms,” In Proceedings of Pacific-Asia Conference on Knowledge Discovery and DataMining (PAKDD), pp.115–126, 2006.

[Mallapragada08]. P. K. Mallapragada, R. Jin, and A. K. Jain, “Active query selection for semi-supervised clustering,” In Proceedings of International Conference on Pattern Recognition, pp.1–4, 2008.

[Vu12]. V.-V. Vu, N. Labroche, and B. Bouchon-Meunier, “Improving constrained clustering with active query selection,” Pattern Recognition, Vol.45, No.4, pp.1749–1758, 2012.

33

(4منابع )[Wang10]. X. Wang and I. Davidson, “Active spectral clustering,” In Proceedings of International

Conference on Data Mining (ICDM), pp.561–568, 2010.

[Hoi07]. S. C. H. Hoi, R. Jin, and M. R. Lyu, “Learning nonparametric kernel matrices from pairwise constraints,” In Proceedings of the 24th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.361–368, 2007.

[Liu10]. W. Liu, X. Tian, D. Tao, and J. Liu, “Constrained metric learning via distance gap maximization,” In Proceedings of AAAI Conference on Artificial Intelligence, AAAI 2010, 2010.

[Grira08]. N.Grira, M. Crucianu, andN. Boujemaa, “Active semi-supervised fuzzy clustering,” Pattern Recognition, Vol.41, No.5, pp.1834–1844, 2008.

34

با تشکر