خوشهبندي مقيد Constrained Clustering

به نام خدا

خوشه بندي مقيدConstrained Clustering

فهرست مطالب

مقدمه ای بر خوشه بندی●ارزیابی خوشه بندی●خوشه بندی مقید●چالشها و راهکارها●پژوهش های انجام شده●

خوشه بندي

خوشه بندي●بين داده هاي هر گروه زياد و خصوصيات مشترک گروه بندي داده ها به گونه اي که

خصوصيات مشترک بين گروه هاي متفاوت کم باشد.: خصوصيات مشترک؟ چگونگي تشخيص خصوصيات؟1سوال

طيف وسيع كاربرد●يادگيري ماشين، هوش مصنوعي، الگوشناسي، وب كاوي، تحليل پايگاه داده، پردازش

متون و تصاوير، علوم پزشكي، علوم اجتماعي، اقتصاد و تجارت، علوم كامپيوتر، پزشكي

خوشه بندي به عنوان يك مساله مشكل ●مهم ترين داليل مشكل بودن مساله:●

ذات بدون ناظر بودن الگوريتم هاي خوشه بندي●ابهام در تعريف خوشه مناسب●مشكل بودن تعريف معيار فاصله مناسب●تعريف تابع هدف مناسب به منظور خوشه بندي●

عدم وجود الگوريتم جامع براي حل همه مسائل خوشه بندي●

روشهاي خوشه بندي )دسته بندی(

ارزیابی کالسترینگ

چند مساله●تمایل به خوشه بندی شدن داده؟●

آیا یک ساختار غیر تصادفی در داده وجود ●دارد؟

استفاده از تستهای آماری●

تعداد خوشه ها؟●برخی الگوریتم ها نیاز به دانستن تعداد ●

خوشه ها قبل از خوشه بندی دارند.راهکارهای تقسیم و ادغام با معیارهایی از ●

قبیل واریانس درون و برون خوشه ای

کیفیت خوشه بندی انجام شده؟●خوشه بندی انجام شده چقدر خوب ●

است؟مناسب ارائه معیارهای ارزیابی●

شرط(4ویژگیهای یک معیار ارزیابی مناسب )

●Cluster homogeneityهر چه خلوص در خوشه بندی )با دانستن کالس اصلی ●

داده ها، داده های هم کالس در یک خوشه قرار بگیرند( بیشتر باشد این معیار بیشتر است.

داده های دسته های متفاوت در خوشه های متفاوت ●قرار داده شوند.

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Cluster completenessCluster homogeneityنقطه مقابل ●داده ها ی دسته های یکسان در خوشه های یکسان ●

قرار داده شوند.

●Rag bagدر برخی مسایل دسته ای به نام »متفرقه« داریم که شامل ●

داده هایی است که نمی توانند با داده های دیگر کالسها هم خوشه شوند.

جریمه انتساب این نوع داده ها به یک خوشه خالص بیشتر از ●انتساب آنها به خوشه متفرقه است .

●Small cluster preservationهدف: ممانعت از شکسته شدن دسته های کوچک اشیا●تقسیم یک دسته کوچک از اشیا به دسته های ریز ●

بسیار خطرناکتر از تقسیم دسته بزرگ به دسته های کوچکتر است.

حذف outlierداده ها ممکن است با فرض نویز یا ●شوند.

Bcubedمعیار ●

مسائل مطرح خوشه بندي

ذات بدون ناظر مساله●پيش فرضهاي اوليه●

ساختار داده ها●معيارهاي فاصله و شباهت●تابع هدف●

(Model mismatch)عدم انطباق پيش فرضها و مدل واقعي ●

راه حل؟استفاده از اطالعات جانبي

براي كمك به الگوريتم هاي خوشه بندي جهت توليد فرض هاي صحيح

اطالعات جانبي●ساختار داده ها●هدف خوشه بندي●شكل خوشه ها●بيشينه اندازه خوشه ها●حداكثر اعضاي هر خوشه●قيدهاي در سطح نمونه●

Must-link(ML)قيدهاي بايد-پيوند ●

Cannot-link(CL)قيدهاي نفي-پيوند ●

قابليت اين قيدها در تعريف قيدهاي پيچيده تر●: با ايجاد εقيد وجود حداقل يك همسايه در فاصله ●

قيد بايد-پيوند ميان هر داده و حداقل يكي از نقاط εموجود در همسايگي

استفاده از اطالعات جانبي در خوشه بندي

خوشه بندي مقيدConstrained Clustering

(Wagstaff 2000)

مقيد )دسته بندي( خوشه بندي

مقيد )دسته بندي ( خوشه بندي

مبتني بر ارضاء قيد:●ارضاء سخت: ●

ارضاء تمامي قيدها به طور كامل●رويكرد جستجوي حريصانه، عدم يافتن يك ●

جواب ممكن براي مساله حتي در صورت وجود جواب

●COP-KMEANS [Wagstaff01]

تا حد ممكن سعي در ارضاء ارضاء نرم: ●قيدها دارند.

روش ايده

PCKmeans [Bilenko04] عبارت جريمه براي نقض قيدها در تابع هدف

MPCKmeans [Bilenko04] عبارت جريمه براي نقض قيدها در تابع هدف و يادگيريمتريك

سلسله مراتبي:●با تغيير الگوريتم هاي خوشه بندي ●

سلسله مراتبي قابليت برآورده كردن قيدها را نيز در آنها تعبيه مي نمايند.

خوشه بندي با ساختن دندروگرامي از ●داده ها

روش پايه:●ابتدا هر داده به عنوان يك خوشه درنظر گرفته مي شود.●عمل ادغام خوشه ها تا هنگامي كه ادغام آنها هيچ قيدي را نقض ●

نكند

Davidson [Davidson05]روش ●( محاسبه MLابتدا بستارهاي تراگذري مربوط به قيدهاي بايد-پيوند )●

مي شود تعداد نمونه هايي X1خوشه آغاز مي نمايد كه X1+rخوشه بندي را با ●

تعداد rاست كه هيچ قيد بايد-پيوندي بر روي آنها اعمال نشده و اجزاء همبند حاصل از قيدهاي بايد-پيوند است..

انتخاب دو نزديكترين خوشه و ادغام آنها تا زماني كه دو خوشه ●براي ادغام وجود دارند.

تغيير ماتريس فاصله●استفاده از اطالعات قيدها قبل از ●

خوشه بندي براي تغيير ماتريس فاصله و استفاده از آن در

خوشه بندي نهاييKlein [Klein02]روش ●

يادگيري معيار فاصله به عنوان ●محبوب ترين روش خوشه بندي مقيد

معيار فاصله اقليدسي به عنوان معيار ●فاصله متداول در فرايند خوشه بندي

ناكارامدي معيار فاصله اقليدسي در ●توصيف صحيح فاصله در يك مجموعه داده

نوعيمعيار فاصله ماهاالنوبيس بسيار مورد توجه ●

قرار گرفته است

مزايا و مشكالت استفاده از قيدها در خوشه بندي

مزايا●[Wagstaff00]افزايش ميانگين دقت خوشه بندي ●[Wagstaff01b]توليد خوشه هايي به شكل دلخواه ●

مشكالت●(Feasibilityشدني بودن )●[Wagstaff06]مفيد نبودن هر مجموعه اي از قيدها ●

چالش هاي موجود در خوشه بندي مقيد

با وجود الگويتم هاي بسيار در خوشه بندي مقيد چالشهايي در ●اين حوزه وجود دارد كه نيازمند تحقيق گسترده مي باشد.

مجموعه قيدهاي متفاوت سودمندي ●متفاوتي براي الگوريتم هاي خوشه بندي

دارندقيدهايي كه الگوريتم خوشه بندي به ●

خودي خود قادر به استخراج آن از داده ها باشد، تاثير چنداني بر بهبود

دقت خوشه بندي نخواهد داشتتعيين سودمندي يك مجموعه قيد قبل ●

از خوشه بنديبه الگوريتم خوشه بندي اين قابليت را ●

مي دهد كه تصميم بگيرد كه آيا از يك مجموعه قيد در راستاي خوشه بندي استفاده

نمايد يا خير.انتخاب بهترين مجموعه قيد ممكن.●

بار انتخاب تصادفي مجموعه قيدهاي 1000از ● تايي، درصد مواردي كه سبب كاهش دقت 25

خوشه بندي در چند الگوريتم شده است. )جدول ([Davidson06]از

-n(n نمونه، nدر يك مجموعه داده با ●قيد کانديد براي انتخاب وجود 2/(1.دارد

بهترين قيد چگونه است؟λانتخاب ●به گونه اي چالش اول را در خود دارد.●رفع اين چالش با معرفي معيارهاي ●

كارامد براي تعيين سودمندي يك مجموعه قيد، سبب كاهش هزينه

گردآوري قيدها ميگردد.

روشها●است كه ( L<n ) داده Lانتخاب قيدها از ميان ●

در آن هزينه گردآوري قيدها، فقط شامل داده مي باشد.Lبرچسب گذاري

[Basu04]پيمايش دورترين-اولين ●انتخاب فعال قيدها به كمك تشخيص نقاط ●

[Xu05 ]مرزي

تمامي روش هاي خوشه بندي مقيد بر ●اين فرض استوارند كه انتشار محلي

اطالعات قيدها به همسايه ها ايمن بوده و مي تواند سبب بهبود نتيجه خوشه بندي

گردد.

مسائل مهم:●تشخيص ايمن بودن انتشار قيد بر روي ●

يك مجموعه داده خاصدرجه انتشار قيد به همسايه ها )تعيين ●

شعاع همسايگي بهينه و ...

خوشه بندي مقيد با رويكرد انتخاب فعال قيدهامساله: خوشه بندي مقيد با رويكرد انتخاب فعال قيدها●

به حل مسالهتكرارشونده نگاه ●

oتعيين ميزان سودمندي يك قيد مشخص

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

oتعيين ميزان سودمندي يك مجموعه قيد

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

فضايقيدها فضايقيدها

انتخاب قيدها و انتساب درجه اهميت به آنها

خوشه بندي مقيدخوشه بندي مقيدقيدهاقيدها

خوشه بندی مقید

ارائه یک روش خوشه بندی مقید●مبتنی بر یادگیری معیار فاصله●حفظ ساختار را در حین تبدیل در نظر می گیرد.●درجه اهمیت قیدها را هم در نظر می گیرد●

مدل خطي رويكرد دوم

در مدل خطي●d*Dيادگيري ماتريس تبديل ●

●WM و WCماتريس درجه اهميت قيدهاي بايد-پيوند و نفي-پيوند ●DM و DC ماتريس هاي قطري حاصل از جمع ستوني WM و WC به صورت مستقيم با رويكردهاي تجزيه طيفي قابل حل نمي باشد.● استفاده مي شود..A براي يافتن ماتريس بهينه [Xiang08]از روش ارائه شده در ●

مدل غيرخطي رويكرد دوم

در مدل غيرخطي●استفاده از توابع هسته براي حالت غيرخطي●يادگيري ماتريس تبديل به صورت●تبديل يافته داده ها در فضاي هسته●

به صورت تركيب خطي از نقاط Aiنوشتن هر بردار ●

وجود دارد كه در نتيجه يك ماتريس●با جايگذاري در مدل اصلي داريم:●

تبديل بهينه نقاط به فضاي مقصد●

انتخاب فعال قيدها )مستقل از الگوریتم خوشه بندی مقید(

o:مسائل مطرح

oبا استفاده از فاصله نقاط مرزی

o با تعریف فاصله قید کاندید با قیدهای

قبلی

o حاصل جمع سودمندی قید با

درنظرگرفتن ترتیب

مجموعه قيد

o:مسائل مطرح

oبا استفاده از فاصله نقاط مرزی

o با تعریف فاصله قید کاندید با قیدهای

قبلی

o حاصل جمع سودمندی قید با

درنظرگرفتن ترتیب

مجموعه قيد

o ایده: استفاده از اطالعات مرز

داده ها

o ایده: استفاده از اطالعات مرز

داده ها

انتخاب فعال قیدهاتوزیع قیدها در فضای داده

به حل مساله در ادامه راهتكرارشونده نگاه

- سودمندی قید بسیار به الگوریتمی که از آن استفاده می کند وابسته است.

- ارائه راهکاری برای انتخاب قید در حین خوشه بندی

فضايقيدها فضايقيدها

انتخاب فعال قيدها

خوشه بندي مقيد

قيدها

(1منابع )[Bilenko04]. M. Bilenko, S. Basu, and R. J. Mooney, “Integrating constraints and metric learning in semi-

supervised clustering,” In Proceedings of International Conference on Machine Learning (ICML), 2004.

[Wagstaff01]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.

[Davidson05]. I. Davidson and S. S. Ravi, “Clustering with constraints: Feasibility issues and the k-means algorithm,” In Proceedings of SIAM International Conference on Data Mining, 2005.

[Klein02]. D. Klein, S. D. Kamvar, and C. D. Manning, “From instance-level constraints to space-level constraints: Making the most of prior knowledge in data clustering,” In Proceedings of the Nineteenth International Conference on Machine Learning, ICML ’02, pp.307–314, 2002.

[Bar-Hillel03] A. Bar-Hillel, T. Hertz, N. Shental, and D. Weinshall, “Learning distance functions using equivalence relations,” In Proceedings of International Conference on Machine Learning (ICML), pp.11–18, 2003.

[Xing02]. E. P.Xing, A.Y.Ng,M. I. Jordan, and S. J. Russell, “Distancemetric learningwith application to clustering with side-information,” In Proceedings of Neural Information Processing Systems (NIPS), pp.505–512, 2002.

(2منابع )[Xiang08]. S. Xiang, F. Nie, and C. Zhang, “Learning a mahalanobis distance metric for data

clustering and classification,” Pattern Recognition, Vol.41, No.12, pp.3600–3612, 2008.

[Wang11]. F. Wang, “Semisupervised metric learning by maximizing constraint margin,” IEEE Transactions on Systems, Man, and Cybernetics, Part B, Vol.41, No.4, pp.931–939, 2011.

[Li08]. Z. Li, J. Liu, and X. Tang, “Pairwise constraint propagation by semidefinite programming for semi-supervised classification,” In Proceedings of the 25th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.576–583, 2008.

[Soleymani10]. M. S. Baghshah and S. B. Shouraki, “Non-linearmetric learning using pairwise similarity and dissimilarity constraints and the geometrical structure of data,” Pattern Recognition, Vol.43, No.8, pp.2982–2992, 2010.

[Wagstaff00 ]. K.Wagstaff and C. Cardie, “Clustering with instance-level constraints,” In Proceedings of the Seventeenth International Conference on Machine Learning (ICML 2000), pp.1103–1110, 2000.

[Wagstaff01b]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.

(3منابع )[Wagstaff06]. K. Wagstaff, “Value, cost, and sharing: Open issues in constrained clustering,” In

Proceedings of 5th International Workshop on Knowledge Discovery in Inductive Databases, KDID 2006, pp.1–10, 2006.

[Basu04]. S. Basu, A. Banerjee, and R. J. Mooney, “Active semi-supervision for pairwise constrained clustering,” In Proceedings of the Fourth SIAM International Conference on Data Mining, pp.333–344, 2004.

[Xu05]. Q. Xu, M. desJardins, and K. L. Wagstaff, “Active constrained clustering by examining spectral eigen-vectors,” In Proceedings of the 8th international conference on Discovery Science, DS’05, pp.294–307, 2005.

[Davidson06]. I. Davidson, K. Wagstaff, and S. Basu, “Measuring constraint-set utility for partitional clustering algorithms,” In Proceedings of Pacific-Asia Conference on Knowledge Discovery and DataMining (PAKDD), pp.115–126, 2006.

[Mallapragada08]. P. K. Mallapragada, R. Jin, and A. K. Jain, “Active query selection for semi-supervised clustering,” In Proceedings of International Conference on Pattern Recognition, pp.1–4, 2008.

[Vu12]. V.-V. Vu, N. Labroche, and B. Bouchon-Meunier, “Improving constrained clustering with active query selection,” Pattern Recognition, Vol.45, No.4, pp.1749–1758, 2012.

(4منابع )[Wang10]. X. Wang and I. Davidson, “Active spectral clustering,” In Proceedings of International

Conference on Data Mining (ICDM), pp.561–568, 2010.

[Hoi07]. S. C. H. Hoi, R. Jin, and M. R. Lyu, “Learning nonparametric kernel matrices from pairwise constraints,” In Proceedings of the 24th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.361–368, 2007.

[Liu10]. W. Liu, X. Tian, D. Tao, and J. Liu, “Constrained metric learning via distance gap maximization,” In Proceedings of AAAI Conference on Artificial Intelligence, AAAI 2010, 2010.

[Grira08]. N.Grira, M. Crucianu, andN. Boujemaa, “Active semi-supervised fuzzy clustering,” Pattern Recognition, Vol.41, No.5, pp.1834–1844, 2008.

با تشکر

خوشهبندي مقيد Constrained Clustering

Documents

Constrained MSSM

ANALISIS ACTIVE FUZZY CONSTRAINED CLUSTERING … · Terdapat beberapa macam representasi dokumen teks yang biasa digunakan untuk text mining, tetapi yang paling banyak digunakan dalam

Clustering _ishii_2014__ch10

A Proposal of Constrained Clustering of Micro-BlogsA Proposal of Constrained Clustering of Micro-Blogs Tsugutoshi AOSHIMAy, Naoki FUKUTAy, Shohei YOKOYAMAy, and Hiroshi ISHIKAWAy y

Clustering Ha

Clustering Jerarquico

2. Clustering - LMU Munich · 26 2. Clustering Inhalt dieses Kapitels 3.1 Einleitung Ziel des Clustering, Anwendungen, Typen von Clustering-Algorithmen 3.2 Partitionierende Verfahren

4 Clustering

Capital structure determinants of financially constrained

The Constrained E 6 SSM

IDENTIFICATION OF MOVING LOADS VIA -CONSTRAINED …

Design strategy for constrained productivity tools

Cardinality-Constrained Discrete Optimization for Regression

Constrained Hamilton Ian System - Hanson-Regge

Clustering DM

Xen Clustering

Integer Matrices with Constrained Eigenvalues - Straylight

Improving of Clustering Partitions Fitness and Clustering

Tugas Clustering

05 Clustering