14
ﻣﺠﻠﻪ ﺑﺮرﺳﻲ ي اﻳﺮان رﺳﻤﻲ آﻣﺎر ﻫﺎي ﺳﺎل24 ﺷﻤﺎره، ي2 ، زﻣﺴﺘﺎن و ﭘﺎﻳﻴﺰ1392 ﺻﺺ، 227 - 240 * ﻧﻮﯾﺴﻨﺪه ﻋﻬﺪه ی ﻣﮑﺎﺗﺒﺎت دار د: رﯾﺎﻓﺖ۳۱ / ۲ / ۱۳۹۳ : ﭘﺬﯾﺮش، ۳ / ۹ / ۱۳۹۳ . ﺧﻮﺷـﻪ ﺳﻠﺴـﻠﻪ ﺑﻨﺪی و ﻣﺮاﺗﺒﯽK - ﻧﺮم در ﻣﯿـﺎﻧﮕﯿﻦ اﻓﺰارﻫـﺎیR ، SAS وMATLAB ﻫﺸﯿﺎرﻣﻨﺶ ﺣﺴﯿﻦ*, ﻓﺮﻫﺎدی ﻣﯿﻼد، ﻫﺸﯿﺎرﻣﻨﺶ ﻋﻠﯽ، و ﺟﻌﻔ ﻧﮕﺎر ﯾﺎن¥ ﭘﮋوﻫﺸﮑﺪه آﻣﺎر ی ﻣﺆﺳﺴﻪ ﺻﺪرا ﻋﺎﻟﯽ آﻣﻮزش ی داﻧﺸﮑﺪه ی اﺳﻼﻣﯽ آزاد داﻧﺸﮕﺎه ﻃﺒﯿﻌﯽ ﻣﻨﺎﺑﻊ و ﮐﺸﺎورزی ﮐﺮج واﺣﺪ¥ اﻣﯿﺮﮐﺒﯿﺮ ﺻﻨﻌﺘﯽ داﻧﺸﮕﺎه ﭼﮑﯿﺪ: ه ﺧﻮﺷﻪ ﺳﻠﺴﻠﻪ ﺑﻨﺪی ﺧﻮﺷﻪ و ﻣﺮاﺗﺒﯽ ﺑﻨﺪی-K ﻣﯿﺎﻧﮕﯿﻦ، ﺗﻮاﻧﺎﯾﯽ ﺑﻪ ﺗﻮﺟﻪ ﺑﺎ در ﮐﻪ ﻫﺎﯾﯽ ﺑﺮﻃﺮف ﮔﺴﺘﺮده و وﺳﯿﻊ ﮐﺎرﺑﺮد دارﻧﺪ، ﻣﺨﺘﻠﻒ ﻋﻠﻮم در ﭘﮋوﻫﺸﯽ ﻣﺸﮑﻼت و ﻧﯿﺎزﻫﺎ ﮐﺮدن ای ﮐﺮده ﭘﯿـﺪا ﭘﮋوﻫﺸـﮕﺮان ﺑـﯿﻦ در ﺧﻮﺷـﻪ وﺳـﯿﻊ ﮐﺎرﺑﺮدﻫـﺎی. اﻧـﺪ زﻣﯿﻨـﻪ در ﺑﻨﺪی ﻣﺨﺘﻠـﻒ ﻫﺎی اﯾـﻦ در ﻋﻠـﻢ رﺷـﺪ ﺳـﺒﺐ اﻧﺴـﺎﻧﯽ و اﺟﺘﻤـﺎﻋﯽ ﻋﻠـﻮم ﻣﻬﻨﺪﺳـﯽ، و ﻓﻨـﯽ درﻣـﺎن، و ﺑﻬﺪاﺷـﺖ زﻣﯿﻨـــﻪ ﻫﺎ ﻧﺮم. اﺳـــﺖ ﺷـــﺪه اﻓﺰارﻫـــﺎیR ، SAS وMATLAB ﺑـــﻪ ﻗﺎﺑﻠﯿﺖ دﻟﯿـــﻞ ﻫـــﺎی ﺑﺮﻧﺎﻣﻪ ﻧﻮﯾﺴﯽ ﭘﺮ از دارﻧﺪ، ﮐﻪ ای ﻧﺮم ﮐﺎرﺑﺮدﺗﺮﯾﻦ ﺗﺤﻠﯿﻞ و ﺗﺠﺰﯾﻪ در اﻓﺰارﻫﺎ ﺧﻮﺷﻪ. ﻫﺴﺘﻨﺪ ﺑﻨﺪی ﻧﺮم اﯾـﻦ از ﮐـﺪام ﻫـﺮ وﺟـﻮد اﯾـﻦ ﺑـﺎ وﻟـﯽ ﻣﺤـﺪودﯾﺖ و ﻗﺎﺑﻠﯿـﺖ اﻓﺰارﻫـﺎ ﺑـﺮای ﺧﺎﺻـﯽ ﻫﺎی ﺧﻮﺷﻪ ﺑﻪ. دارﻧﺪ ﺑﻨﺪی ﻧﺤـﻮه ﺑـﺎ ﭘﮋوﻫﺸﮕﺮان آﺷﻨﺎﯾﯽ دﻟﯿﻞ ﻫﻤﯿﻦ ی ﺧﻮﺷـﻪ از ﯾـﮏ ﻫـﺮ در ﺑﻨـﺪی ﻧﺮم اﯾﻦ آن ﺑﻪ را اﻣﮑﺎن اﯾﻦ اﻓﺰارﻫﺎ ﻣﯽ ﻫﺎ داده ﻧﻮع ﺑﻪ ﺗﻮﺟﻪ ﺑﺎ ﺗﺎ دﻫﺪ دارﻧﺪ اﺧﺘﯿﺎر در ﮐﻪ ﻫﺎﯾﯽ از ﻧﯿﺎزﻫﺎﯾﺸﺎن و ﻧﺮم راﺣﺖ ﮐﻪ اﻓﺰاری ﺳﺮﯾﻊ و ﺗﺮ آن ﻧﯿﺎزﻫـﺎی ﺗﺮ ﻣﯽ ﺑﺮﻃـﺮف را ﻫـﺎ ﺑـﺮای ﮐﻨـﺪ، ﺧﻮﺷﻪ اﺟﺮای ﺑﻨﺪی ﺳﻠﺴﻠﻪ و ﻣﺮاﺗﺒﯽK - . ﮐﻨﻨﺪ اﺳﺘﻔﺎده ﻣﯿﺎﻧﮕﯿﻦ واژﮔـﺎن ﮐﻠﯿـﺪی: ﺧﻮﺷـﻪ ﺳﻠﺴـﻠﻪ ﺑﻨﺪی ﻣﺮاﺗﺒﯽ ؛ ﺧﻮﺷـﻪ ﺑﻨﺪیK - ﻣﯿـﺎﻧﮕﯿﻦ ؛ ﻧﺮم اﻓﺰارﻫـﺎیR ، SAS وMATLAB . Downloaded from ijoss.srtc.ac.ir at 3:58 +0330 on Thursday February 20th 2020

IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

هاي آمار رسمي ايران ي بررسي مجله 240 -227 ، صص1392 پاييز و زمستان، 2 ي ، شماره24سال

دار مکاتبات ی عهده نویسنده* .۳/۹/۱۳۹۳، پذیرش: ۳۱/۲/۱۳۹۳ریافت: د

، Rافزارهــای  میــانگین در نرم-Kمراتبی و  بندی سلســله خوشــهSAS و MATLAB

¥یانرنگار جعف و ، علی هشیارمنش‡، میالد فرهادی,*†حسین هشیارمنش ی آمار پژوهشکده † ی آموزش عالی صدرا مؤسسه ‡ واحد کرج کشاورزی و منابع طبیعی دانشگاه آزاد اسالمی ی دانشکده دانشگاه صنعتی امیرکبیر ¥

هایی که در با توجه به توانایی میانگین،K- بندی مراتبی و خوشه بندی سلسله خوشه ه:چکیدای کردن نیازها و مشکالت پژوهشی در علوم مختلف دارند، کاربرد وسیع و گسترده برطرف

های مختلــف بندی در زمینــه انــد. کاربردهــای وســیع خوشــه در بــین پژوهشــگران پیــدا کردهبهداشــت و درمــان، فنــی و مهندســی، علــوم اجتمــاعی و انســانی ســبب رشــد علــم در ایــن

ـــه ـــت. نرم ها زمین ـــده اس ـــای ش ـــه MATLABو R ،SAS افزاره ـــل قابلیت ب ـــای دلی هبندی هستند. خوشه افزارها در تجزیه و تحلیل کاربردترین نرم ای که دارند، از پر نویسی برنامه

های خاصــی بــرای افزارهــا قابلیــت و محــدودیت ولــی بــا ایــن وجــود هــر کــدام از ایــن نرمبنـدی در هـر یـک از خوشـه ی همین دلیل آشنایی پژوهشگران بـا نحـوه بندی دارند. به خوشههایی که در اختیار دارند دهد تا با توجه به نوع داده ها می افزارها این امکان را به آن این نرم

کنـد، بـرای هـا را برطـرف می تر نیازهـای آن تر و سریع افزاری که راحت نرم و نیازهایشان از میانگین استفاده کنند. -Kمراتبی و سلسله بندی اجرای خوشه

، R افزارهــای نرم؛ میــانگین-Kبندی  خوشــه ؛مراتبی بندی سلســله خوشــه :کلیــدی واژگــانSAS وMATLAB.

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 2: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

نگار جعفريان و حسين هشيارمنش، ميالد فرهادي، علي هشيارمنش 228

..................... 240 - 227، صص 1392پاييز و زمستان ، 2 ي ، شماره24سال ، هاي آمار رسمي ايران ي بررسي مجله .....................

مقدمه -۱توانایی در برطرف دلیل بههای یک علم با توجه به گسترش علوم مختلف، برخی از تکنیک

انــد. یکــی از ایــن ای، پیــدا کرده کــردن نیازهــای علــوم مختلــف، کــاربرد وســیع و گســتردهــهبندی اســت. خوشــه ۱بندی خوشــه هــا تکنیک ــایی و قابلیت دلیل ب ــه در توان ــاالیی ک هــای ب

ها دارد مورد توجه محققان و پژوهشگران علوم مختلـف بندی آن تلخیص اطالعات و دسته قرار گرفته است.

سـازی صـوت، تشـخیص سـازی تصـویر، فشرده بندی بـرای فشرده در مهندسی از خوشـهافراد، بازیـابی عکـس، تحلیـل سـیگنال رادار، شناسـایی ی گفتار، تشخیص چهره ی گوینده

کننـد. در اسـتفاده می ای و تصـاویر پزشـکی بندی و تحلیل تصاویر مـاهواره پارازیت، تقسیمهـا و زا، میکروب هـا، عوامـل بیمـاری هـا، ژن بندی برای شناسایی پروتئین پزشکی از خوشه

کننــد. در اقتصــاد از دارو اســتفاده می ی هــا و تهیــه هــای درمــان بیماری بــرای شناســایی راهبندی عوامـل ثـروت گذاری، دسته بندی برای شناسایی الگوی خرید، چگونگی سرمایه خوشه

]. ۵[ و ]۳کنند [ و فقر، استفاده میبندی در علــوم مختلــف، نیــاز بــه هــای خوشــه فراگیــر شــدن اســتفاده از تکنیک دلیل بــه

بندی برای پژوهشگران وجود دارد. پژوهشگران اغلب بـه یـک یـا در مـوارد یادگیری خوشهبندی بـرای دو مـدل خوشـه دسـتورهای خواهیم افزار تسلط دارند. ما می محدودی به دو نرم

] که کاربرد وسیعی در علوم ۱۲[ ۳میانگین-K بندی ] و خوشه۱[ ۲مراتبی بندی سلسله خوشهـــد ـــف دارن ـــای ]، را در نرم۱۳[ و ]۹[ ]،۷]، [۶[ مختل ،MATLABو R ،SAS افزاره

افزارها در تجزیه و تحلیل آماری هسـتند، که از پر کاربردترین نرم ]۱۱و [ ]۱۰]، [۸]، [۲[ معرفی کنیم. های بندی را شامل قسمت خوشهتوان مراحل اساسی نویسی می برای برنامه

بندی ها برای خوشه سازی داده آماده .۱ بندی خوشه دستورهای .۲ بندی مشاهدات رسم نمودار خوشه .۳

نویسی برای هر یک از مراحـل اساسـی در های بعد کدهای برنامه در قسمت در نظر گرفت. و R ،SAS افزارهـــای در نرم میـــانگین،-K بندی مراتبی و خوشـــه سلســـله بندی خوشـــه

MATLAB .معرفی شده است

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 3: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

MATLAB 229و R ،SASافزارهاي ميانگين در نرم-Kمراتبي و بندي سلسله خوشه

..................... 240 - 227، صص 1392پاييز و زمستان ، 2 ي ، شماره24ل اس، هاي آمار رسمي ايران ي بررسي مجله .....................

مراتبی بندی سلسله خوشه -۲بندی اسـت. در ایـن روش هـای خوشـه کاربردترین روشمراتبی یکی از پر بندی سلسله وشهخ

شود. پس از تعیین فاصله دو بـه دوی ابتدا فاصله دو به دوی مشاهدات از هم محاسبه میمشاهدات با هم تشکیل یـک مشاهدات، با توجه به نزدیکی مشاهدات نسبت به یکدیگر،

رود کـه تمـام مشـاهدات در یـک خوشـه دهند. این کار تا جایی پیش مـی جدید می ی خوشه گیرند. قرار میصـورت ها بـا هـم را، بـه مراتبی چگونگی ترتیب مشـاهدات و خوشـه بندی سلسله خوشه

ها را وشـهتوان به کمک نمودار درختی، نحـوه و ترتیـب خ دهد. می نمودار درختی نمایش می مشخص کرد. ـــه از مزیت ـــای خوش ـــله ه ـــامی بندی سلس ـــرای تم ـــت درک ب ـــادگی و قابلی مراتبی، س

تواند نیازهـای متعـددی های متنوعی است که می پژوهشگران است. این روش شامل مدل را رفع کند.

ـــر روی آن تکنیک داده ـــه ب ـــایی ک ـــه ه ـــای خوش ـــی ه ـــرا م ـــای کنیم، داده بندی را اج ههای آمـار هستند. در آزمایشـگاه شده سازی شبیههایی شده به روش ثبتی، و یا داده اوری جمع

سـازی هـای شبیه برای آموزش و یـا بررسـی کـارایی و دقـت یـک روش و یـا مـدل از روششـده اوری هـای جمع مه ما از دو مجموعـه داده، کـه هـم از دادهکنیم. در ادا ها استفاده می داده

هـــای کنیم. داده اســـت، اســـتفاده مـــی شـــده سازی شبیههـــای بـــه روش ثبتـــی و هـــم از دادههایی با عنوان فقر اسـت. ایـن شده به روش ثبتی مورد استفاده در این مقاله، داده اوری جمع

د مرگ و میر نوزادان، تعداد مرگ و میر، و مجموعه داده شامل چهار متغیر نام کشور، تعدامشـاهده از یـک متغیـر ۱۰۰، شـامل شـده سازی شبیههـای تعداد تولد است. مجموعـه دادهــه ــر آمیخت ــه اســت. متغی ــه مجموعــه داده آمیخت ــا احتمــال ای ک ــع ۰٫۶هــای آن ب از دو توزی

)۵, ۱( 𝑁 و)۱۰, ۱(𝑁 است. در اینجا تولید داده از توزیـع آمیختـه، بـرای بررسـی توانـاییی اول از مراحل اساسـی های آمیخته است. در مرحله بندی در جداسازی داده تکنیک خوشه

کنیم. در هریک از افزارها می را وارد نرم شده سازی شبیههای بندی، ابتدا مجموعه داده خوشه، از labelتایی بـا نـام ۱۰۰ای  ابتدا مجموعه داده ،MATLABو R ،SASافزارهای نرم

، label ی شود. بر اساس مشاهدات مجموعه داده تولید می ۰٫۶ای با احتمال  جمله توزیع دوبرابـر labelی  ای در مجموعه داده شود. اگر مشاهده ، تولید میXی  ی آمیخته مجموعه داده

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 4: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

.................

برابـر بـا شـود.   میMA مورد

سـتورهای

ــام دهــیم ـی باشـد. فزارهـای

مراتبی ــلهین متـری ی ی فاصله

ريان

.... 240 - 227صص

labelی ه دادهتولیـد Xی تـهS وATLAB

دساز ولید شـده

مراتبی انجــ ســلهه بـه روش ثبتـیا هر یـک از نرم

آمده است.بندی سلســـ شـــهتعیـی :انـد از ت

ی وش محاسبه

بندی شه

نگار جعفر و يارمنش

، ص1392ييز و زمستان

ی در مجموعـهی آمیخت عـه دادهR ،SASرهای

توهای ی از داده

بندی سلس خوشــهشد اوری ی جمع

روش ثبتی در هآ ۲د در شکل

ی، بـــرای خوش انتخـاب عبارتیگری تعیین رو

تصادفی برای خوش

د فرهادي، علي هشي

پايي، 2 ي ، شماره24ل

ا مشـاهدهاگـر برای مجموعـ،

افزار یک از نرمه است. بخشی

.ستهــا خو ر روی آن

های و یا از دادهده به رش اوری ع

گیرند ده قرار میبندی ـــی خوشـــه

م داد. ایـن دومشاهدات و دی

تولید عدد تص ویسی

ن هشيارمنش، ميالد

سا، آمار رسمي ايران

,۵( زیع ۱( 𝑁و,۱۰(زیع ۱(𝑁

منظور در هر یآمده ۱ر شکل

یوست آمده اسخــواهیم بــر می

فی تولید شود وهای جمع د داده

M مورد استفادمراحـــل اساســمهم بایـد انجـامو به دوی بین

.هم

نو کدهای برنامه -

حسين

هاي ي بررسي مجله ..

، عددی از توزد، عددی از توزی که برای این

گیرند، د رار می، در پی۱ شکلای کــه عــه داده

صورت تصادف هی که برای ورود

MATLABو ی دوم از حلـــه

ت، دو انتخاب می فاصله دو سبه

شده با ه ی ادغام

۱شکل

230

...................

باشد ۱با باشد صفر

یدستورهایاستفاده قرموجود درمجموع

تواند به مییدستورهای

R ،SASدر مرحمشاهداتبرای محاس

های خوشه

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 5: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

231

.................

دی

𝑚 متغیــرتغیرهـای مـوالً متـر بـــین دو سـتفاده از

و کنیم مـیس فاصله، ر اصـلی)

S وMATLAB

.... 240 - 227صص

بند زار برای خوشه

𝑋 = 𝑋۱ ،𝑚 با توجـه بـه مت𝑑 متـری کـه معم 𝑥 ی فاصـــلهو مشاهده با اس

𝑑 𝑥 , 𝑥مه دو محاسـبه

تشکیل ماتریساصـر روی قطـر

R ،SASافزارهاي م

، ص1392ييز و زمستان

افز نرم وش ثبتی به

, کــه … , 𝑋این مشاهداتشـاهدات را بـا

𝑥دســـی , 𝑥ی دو ی فاصله ه

𝑥 = 𝑥صورت دو به بهبعد از ت دهیم. ی

(بـه غیـر از عنا

ميانگين در نرم-Kو

پايي، 2 ي ، شماره24ل

شده به رو اوری مع

𝑋۱, … , 𝑋،بندی ا ی خوشه

بـین مش ی صـلهـــد. متـــر اقلید. روش محاسبه

[:

𝑥۱ − 𝑥۱۲ +

مشاهدات را ب فاصله قرار می

کنیم ( پیدا مـی

مراتبي و دي سلسله

اس، آمار رسمي ايران

های جم ورود داده

ی مشــاهداتدیده است. برایر مشـاهده، فاص

گیرنــ نـــدازه میکند. محاسبه می

۱باشد [ زیر می

⋯ + 𝑥 −ش فاصله بینرا در ماتریسریس فاصله را

بند خوشه

هاي ي بررسي مجله ..

دستورهای ـ۲کل

ور شــهودی بــراشده، ثبت گرد یشده برای هـر یاســـت ا] ۴[ ۴ 𝑥 و𝑥 را م

صورت ز سی به

− 𝑥 ۲ فاده از این روش

دست آمده هی بین عدد در ماتر

...................

شک

طــو بــهگیری اندازه

اندازه گیری۴اقلیدســـی

ی مشاهدهمتر اقلیدس

با استفهای فاصلهترین کوچک

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 6: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

نگار جعفريان و حسين هشيارمنش، ميالد فرهادي، علي هشيارمنش 232

..................... 240 - 227، صص 1392پاييز و زمستان ، 2 ي ، شماره24سال ، هاي آمار رسمي ايران ي بررسي مجله .....................

این ی دهنده باشد. این عدد نشان ای است که محل تقاطع دو مشاهده می عدد فوق در درایهبــین مشــاهدات را از یکــدیگر دارنــد، لــذا ی تــرین فاصــله فــوق کم ی اســت کــه دو مشــاهده

داد. توان دو مشاهده را در قالب یک خوشه قرار میی جدیـد هم تشکیل یـک خوشـهوقتی دو مشاهده با که شود جا این سؤال مطرح می در این

ی این خوشه با دیگر مشاهدات را محاسبه کرد؟ توان فاصله دهند، چگونه می میای باشد که محـل تقـاطع دو ترین عدد مخصوص به درایه فرض کنید در ماتریس فاصله، کم

تشـکیل 𝑏و 𝑎ی هنگـامی کـه دو مشـاهده ،است. حال سؤال این است 𝑏 و 𝑎ی مشاهدهعنوان مثـال بـه( تا مشاهدات دیگـر ی جدید خوشهی دهند، فاصله میرا 𝑎𝑏 جدیدی خوشه

؟شود میچگونه محاسبه ،)𝑑 ی مشاهدهو R ،SASی افزارهــا کــه بــرای ایــن منظــور در هــر یــک از نرم نویســی کــدهای برنامه

MATLAB آمده است. ۳گیرند، در شکل مورد استفاده قرار می هـا و بـه نـوع داده جلوگیری از بروز خطـا در تجزیـه و تحلیـل بایـددر این قسمت برای

هـا بـرای تعیـین تحلیلی که قرار است انجام شود بسـیار دقـت کـرد. از پرکـاربردترین روشــد ی خوشــه ی فاصــله ــر، در خوشــه 𝑎𝑏جدی ــا مشــاهدات دیگ مراتبی: روش بندی سلســله ت و ۸روش پیونـد میانـه ،۷میـانگین وندروش پی ،۶، روش دورترین فاصله۵ترین فاصله نزدیک

تعیـین MATLABو R ،SAS افزارهـای است. در هـر یـک از نرم ۹روش پیوند به مرکزانتخـاب هـر یـک از ایـن ).۳شود (شـکل  ، انجام میmethod روش مورد نظر، در بخش

شـود. ها بر مبنای نوع داده، و تحلیلی که قرار است روی آن صورت گیـرد تعیـین می روش] مراجعـه ۱تـوان بـه [ هـا می ها و درک بهتر از تفاوت هر یـک از آن برای بررسی این روش

کرد. یدسـتورهایبندی است. بندی، رسم نمودار خوشه سوم از مراحل اساسی خوشه ی مرحله

و R ،SASی افزارهــا مراتبی در هـر یــک از نرم بندی سلســله کـه بــرای رســم نمـودار خوشــهMATLAB آمده است. ۴گیرند در شکل مورد استفاده قرار می زمــان زیــادی کــه صــرف دلیل بــهعــد بــاال، هــایی بــا ُب مراتبی در داده بندی سلســله خوشــه

اسبه نیست. البته این مشـکل را و گاهی نیز قابل مح نماید، مقرون به صرفه محاسبات می کنند. میانگین رفع می-Kبندی با خوشه

نویسـی آن در برنامه دسـتورهایو میـانگین،K-ی بند در قسمت بعد به معرفـی خوشـه .پردازیم می MATLABو R ،SAS افزارهای نرم

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 7: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

233

.................

S وMATLAB

.... 240 - 227صص

ها اده

ها راتبی داده

R ،SASافزارهاي م

، ص1392ييز و زمستان

مراتبی دا ی سلسله

بندی سلسله مر شه

ميانگين در نرم-Kو

پايي، 2 ي ، شماره24ل

بندی خوشه نویسی

رسم نمودار خوش ی

مراتبي و دي سلسله

اس، آمار رسمي ايران

کدهای برنامهـ ۳

نویسی های برنامه

بند خوشه

هاي ي بررسي مجله ..

شکل

کدـ ۴شکل

...................

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 8: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

نگار جعفريان و حسين هشيارمنش، ميالد فرهادي، علي هشيارمنش 234

..................... 240 - 227، صص 1392پاييز و زمستان ، 2 ي ، شماره24سال ، هاي آمار رسمي ايران ي بررسي مجله .....................

میانگینK-ی بند خوشه -۳تـر مراتبی با زیاد شدن تعداد مشاهدات، تعداد محاسبات بـیش بندی سلسله در روش خوشه

شـود. یابی بـه نتیجـه می گیرشدن و در بعضی مواقع عدم دست این امر سبب زمان شود. می شود. استفاده می میانگینK–ی بند برای رفع این مشکل از خوشه

شـود. تعـداد ایـن عنوان مرکزیـت تعیـین می میانگین، ابتدا نقاطی بهK-ی بند در خوشههایی که وجود دارد، تعیین شده اسـت. پـس از تعیـین نقـاطی نقاط با توجه به تعداد خوشه

ترین نقـاط بـه هـر شود، سپس نزدیک ین میتعی ،هر نقطه تا مراکز ی عنوان مرکز، فاصله به .دهند مرکز، با هم تشکیل خوشه می

میـانگین،K-ی بند نویسـی در مراحـل اساسـی خوشـه در ادامه به معرفی کـدهای برنامه پردازیم. می

میـانگین،K-ی بند اول از مراحـل اساسـی در خوشـه ی نویسی، بـرای مرحلـه کدهای برنامهشده به روش ثبتـی اوری های جمع و یا فایل داده شده سازی شبیههای ورود داده ی یعنی نحوه

است. ۲و ۱ های آمده در شکل دستورهایمانند MATLABو R ،SAS افزارهای در نرممیانگین، دو انتخاب مهم باید انجام داد. K-ی بند دوم از مراحل اساسی خوشه ی در مرحله

دومین انتخاب، تعیین حداکثر تعـداد تکرارهـا ها است. اولین انتخاب، تعیین تعداد خوشه هایی همگن است. برای رسیدن به خوشه

ی فاصـله سـپسشـود. عنـوان مراکـز هـر خوشـه تعیـین می نقطـه، بـه Kدر اولین انتخـاب، تـرین شود. مشاهداتی کـه کم مشاهدات تا هر یک از مراکزی که مشخص شده، محاسبه می

دهند. ، با هم تشکیل خوشه میفاصله را تا هر یک از مراکز دارندــه در ــیوه-Kبندی خوش ــالف ش ــر خ ــانگین ب ــله می ــه های سلس ــان جاب جایی مراتبی امک

ــاهده ــود دارد. مش ــر وج ــه دیگ ــه خوش ــه ب ــک خوش ــانگین ای از ی ــاب، می ــین انتخ در دومعنوان مرکـز در نظـر گرفتـه، دوبـاره قبل محاسبه شده است را به ی هایی که در مرحله خوشههای جدیـد را تشـکیل مشاهدات تا هر یک از مراکز جدید را محاسبه کرده، خوشه ی فاصلهکنیم. یکی از دالیل ایـن امـر در دهیم. تعداد این تکرارها را در دومین انتخاب تعیین می می

مشـاهدات از مرکـز خوشـه، بـرای رسـیدن بـه ی میانگین، کم کـردن فاصـله-Kبندی خوشه کـه بـرای ایـن منظـور در هـر یـک از یهایدسـتور اسـت. ای ترین واریـانس درون خوشـه کمآمــده ۵گیرنــد، در شــکل مــورد اســتفاده قــرار می MATLABو R ،SASی افزارهــا نرم

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 9: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

235

.................

۸۵بر بـا

S وMATLAB

.... 240 - 227صص

ن انتخاب) براب

ها اده

ها گین داده

R ،SASافزارهاي م

، ص1392ييز و زمستان

د تکرار (دومین

میانگین د- Kی

میانگ- Kبندی وشه

ميانگين در نرم-Kو

پايي، 2 ي ، شماره24ل

و تعداد ۲بر با

بند خوشه نویسی ه

رسم نمودار خو ی

مراتبي و دي سلسله

اس، آمار رسمي ايران

ها براب اد خوشه

برنامهکدهای - ۵

نویسی دهای برنامه

بند خوشه

هاي ي بررسي مجله ..

این برنامه تعد ه است.

شکل

ک - ۶شکل

...................

است. در اتعیین شده

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 10: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

نگار جعفريان و حسين هشيارمنش، ميالد فرهادي، علي هشيارمنش 236

..................... 240 - 227، صص 1392پاييز و زمستان ، 2 ي ، شماره24سال ، هاي آمار رسمي ايران ي بررسي مجله .....................

گیری نتیجهبحث و -۴بندی در مــواردی مــورد خوشــه هــای تلخــیص مشــاهدات اســت. بندی یکــی از روش خوشــه

بندی مشــاهدات در بنــدی و دســته طبقهای بــرای گیــرد کــه پژوهشــگر، ایــده اســتفاده قرارمیعنوان تکنیکـی کـه مراتبی بـه بندی سلسله بندی، خوشه های خوشه در بین مدل اختیار ندارد.

ــه ــاالیی دارد و خوش ــت ب ــه-Kبندی دق ــانگین ب ــاده می ــی از س ــای ترین تکنیک عنوان یک ه .گیرند قرار میهای مختلف در رشتهپژوهشگران ی طور گسترده مورد استفاده بندی به خوشه

ای از پـیش نوشـته شـده هسـتند، بـرای افزارهای تحلیلی دارای برنامه جایی که نرم از آنگیرند. لـذا پژوهشـگران بـرای تری مورد استفاده قرار می بندی مشاهدات در موارد کم خوشه

رنـد نویسی دا افزارهایی که قابلیت برنامه افزارهای تحلیلی، از نرم های نرم جبران محدودیتهسـتند. ولـی هـر MATLABو R ،SASافزارهـا تـرین ایـن نرم کنند. مطرح استفاده می

افزارها نیز به تنهایی دارای نقاط قوت و ضعف هستند. پژوهشگران زیادی یک از این نرمکه پژوهشـگری بنـا شود چنان افزارها تسلط دارند. این امر سبب می تنها به یکی از این نرم

افـزار بـه انجـام افزار و یا توانایی نرم بر بودن استفاده از نرم ز جمله هزینها ،به دالیلی خاصافـزاری کـه بـه آن تسـلط دارد افـزار دیگـری، غیـر از نرم محاسبات سنگین، بنا باشد با نرم

ایم اشـد. مـا سـعی کـردهب میافـزار بندی را بنویسـد، محتـاج آمـوزش آن نرم خوشـه ی برنامهافزارهای میانگین را با نرم-Kبندی مراتبی وخوشه بندی سلسله الزم برای خوشه دستورهای

.معرفی کنیم کاربرد نویسی پر برنامهــه ــر خوش ــل آماده بندی می در ه ــوان مراح ــازی داده ت ــه س ــرای خوش ــا ب ــتورهایبندی، ه دس

ندی در ب عنوان مراحل اساسی خوشه بندی مشاهدات، را به بندی، و رسم نمودار خوشه خوشه MATLABو R ،SAS افزارهـای نظر گرفت. ما بـرای هـر یـک از ایـن مراحـل، در نرم

ایم. در این مقاله بـا در کنـار هـم قـرار طور جداگانه نوشته مربوط به هر مرحله را به ی برنامه، R افزارهـای میـانگین، در نرم-Kبندی مراتبی و خوشه بندی سلسله خوشه دستورهایدادن SAS وMATLAB افزار با توجـه بـه نیازهـای پژوهشـگر اختیار انتخاب استفاده از نرم شده است. ایجاد

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 11: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

MATLAB 237و R ،SASافزارهاي ميانگين در نرم-Kمراتبي و بندي سلسله خوشه

..................... 240 - 227، صص 1392پاييز و زمستان ، 2 ي ، شماره24ل اس، هاي آمار رسمي ايران ي بررسي مجله .....................

توضیحات1. Clustering 2. Hierarchical clustering 3. K-means clustering 4. Euclidean distance 5. Single Linkage (Nearest Neighbor) 6. Complete Linkage (Farthest Neighbor) 7. Average Linkage 8. Median 9. Centroid

ها مرجعمراتبی.  بندی سلسـله های خوشـه بندی به کمک تکنیک ). دسته۱۳۹۲هشیارمنش، حسین ( ]۱[

شار، تهران.[2] Brock, G., Pihur, V., Datta, S. and Datta, S. (2008). clVali :An R

Package for Cluster Validation. Journal of Statistical Software, 25, 1-22.

[3] Cluster analysis. (2014, July 26). Wikipedia. Retrieved August 4, 2014, URL: http://en.wikipedia.org/wiki/Cluster_analysis.

[4] Deza, E. and Deza, M. (2013). Encyclopedia of Distances. Springer, New York.

[5] Gan, G., Ma, Ch. and Wu, J. (2007). Data Clustering: Theory, Algorithms, and Applications, Society for Industrial & Applied Mathematics. New York.

[6] Jie, C., Zhiang, W., Junjie, W. and Wenjie, L. (2013). Towards Information Theoretic K-means Clustering for Image Indexing. Signal Processing, 93, 2026–2037.

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 12: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

نگار جعفريان و حسين هشيارمنش، ميالد فرهادي، علي هشيارمنش 238

..................... 240 - 227، صص 1392پاييز و زمستان ، 2 ي ، شماره24سال ، هاي آمار رسمي ايران ي بررسي مجله .....................

[7] Kaiyang, L. Guizhong, L., Li, X. and Chaoteng, L. (2013). A Sample Based Hierarchical Adaptive K-means Clustering Method for Large-scale Video Retrieval. Knowledge-Based Systems, 49, 123–133.

[8] Krotha, R. and Merugula, S. (2013). A Brief Survey on Document Clustering Techniques Using MATLAB. Journal of Computer & Organization Trends, 3, 1-6.

[9] Langfelder, P. and Horvath, S. (2012). Fast R Functions for Robust Correlations and Hierarchical Clustering. Journal of Statistical Software, 46, 1-17.

[10] Milligan, G.W. and Cooper, M.C. (1985). An Examination of Procedures for Determining the Number of Clusters in a Data Set. Psychometrika, 50, 159–179.

[11] Recchia, A. (2010). Contiguity-Constrained Hierarchical Agglomerative Clustering Using SAS. Journal of Statistical Software, 33, 1-12

[12] Rencher, A. (2003). Methods of Multivariate Analysis. Wiley, New York.

[13] Tudor, B. (2013). Unsupervised SIFT-based Face Recognition Using an Automatic Hierarchical Agglomerative Clustering Solution. Procedia Computer Science, 22, 385–394.

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 13: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

239

.................

S وMATLAB

.... 240 - 227صص

R ،SASافزارهاي م

، ص1392ييز و زمستان

ميانگين در نرم-Kو

پايي، 2 ي ، شماره24ل

پیوست

ست:

مراتبي و دي سلسله

اس، آمار رسمي ايران

صورت زیر اس هب

بند خوشه

هاي ي بررسي مجله ..

۱های شکل  داده

...................

بخشی از د

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020

Page 14: IR K^¡¡¾}] ¦] ´~º }y ¹N º^¡¡N¶ - K À Lbg]~¶ ½³¡¡ ³ Kz»a …ijoss.srtc.ac.ir/article-1-34-fa.pdf½Y ËY ʼ Z»M ÉZÅ Ê ] É Ä¸n» 240 - 227 ,1392 ½Zf » Á

نگار جعفريان و حسين هشيارمنش، ميالد فرهادي، علي هشيارمنش 240

..................... 240 - 227، صص 1392پاييز و زمستان ، 2 ي ، شماره24سال ، هاي آمار رسمي ايران ي بررسي مجله .....................

حسین هشیارمنش آمارفوق لیسانس

ی آمار. ، پژوهشکده۵ی  ، شماره۲۵الدین اسدآبادی، خیابان  خیابان سید جمالتهران، [email protected]رایانشانی:

میالد فرهادی عمران دیپلم فوق

آموزش عالی صدرا.ی  ؤسسهتهران، بلوار کوهسار، م [email protected]رایانشانی:

علی هشیارمنش لیسانس علوم دامیفوق

کشاورزی و منابع طبیعی دانشگاه آزاد اسالمی واحد کرج. ی کرج، مهرشهر، بلوار ارم، خیابان آزادی، دانشکده [email protected]رایانشانی:

نگار جعفریان فوق لیسانس آمار

.دانشگاه صنعتی امیرکبیر، ۴۲۴ی  تهران، خیابان حافظ، شماره [email protected] رایانشانی:

Dow

nloa

ded

from

ijos

s.sr

tc.a

c.ir

at 3

:58

+03

30 o

n T

hurs

day

Feb

ruar

y 20

th 2

020