29
معة البعث مجلة جامجلد ال63 العدد11 - 4112 هزار هرموش د. محسن حسين189 ة بينسة مقارن دراR وRapidminer كأداتين( لمعطياتب في ا للتنقيData Mining ) ار هرموش هز الدكتور محسن حسينوماتيةعمية الهندسة الم كممعة البعث جا المخص م تمثل لتلل تقيبلف لت قلرة معطبلتData Mining ) علصسلت لوملت معل ؤبل تقب ملرل مل لر معطبلت قولع ولأت تولة ر ل بللل تلعت لرلة بل تة لتلت بل ت تتلتبومبلت لل عمل رهت مسلبةوتتل ت لتم لتمعطبت لتت ممتل ت لتحل لتقول عل وملبلر ل تعلتال لت هلهمبل بلر ل ت سلتة مت بوللتل لت لأرولقبل ب ت تتقيةبلا ل ماتهبملبل طب بأسلة مل تبم، حتل رل غل لةتيلة تا لل عف لتل لت مل حلو هلوا لأرول هلا ي مل لو ج لتمةمتل أرله م أمثل ل معطبل ت لت لل تقيبل ف لت لتلرل لب ب ميتةقل سل ل لترةيل رت ت ي وهملت: لتةطصعتست يت و رلمتثة لست لأRapidminer ل لتبةم و تغلR لر ب عل ميتةقل لتعتملر لملتبقأقسلف ب تة لتبل ل وة علتمطلو ل بتحل لت مسلتعر سلبع تعمل لل معتببة: مق، لمق لتم مبلت ولة لت، لة ولت تلرتحلمت لتلب لت، تقبلت إموملتةسل لتمثبل لت، رمبمسلت لتيبلبت ت، تطلوبة لتتقبلت ولم قبل لتب، لأرله موعل مبل بتطب بتقلت لتبموعلت م علرر مل عللقبت لت مبلت ولة ملdata set ) رلتسلت و بتيسلبتل ت تيقبتلcross validation وhold-out لتقت لتلر مللتأ ت سل ل لترةلص مل لب تبR لة ولتتل ر للب و مبل ت ولة لت بل ة عل رر مل ل رعت ل تتل لت لأرل ل هلوملتةسل لتمثب ولت، تالوبقملت بRapidminer ملا تعلرررلت و رعسلت لوت سل حبل مل تعمل للت مق بل ة مل مل ت لأرله حبل مللقات لتم رقلرلتسلت بت قبل ل بتل لتبلتت مR تقل حلت لت بعللل إ عل بعلت طبلت ة لتل لتمعطبلت لتلت ت حبل ب مسل بي لت معت ي مةحل ل و لبل ة ب غل رو لتتل بي لأرل لب ل تال بل تة معتمرل مر عل ىرلرلت ل لستا مرت وهرمست لت بة حياااةلميتات اامااا الكم: بتقل ت لتب لل تقيبل ف لت، لتبت سل تة ل بتقل ت، رول ، ل قبت لت مبل ت ولة ، مبل ت ولة مبت لت

نيت^دأك Rapidminer و R نيب ةنراقم ةس^رد Data Mining ... · نيسح نسحم .د شومره رازه 4112 - 11 ددعلا – 63 دلجملا – ثعبلا ةعماج

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

189

كأداتين Rapidminerو R دراسة مقارنة بين (Data Miningللتنقيب في المعطيات )

الدكتور محسن حسينهزار هرموش جامعة البعث –كمية الهندسة المعموماتية

ممخصالمعلوملت لسلتالص علل (Data Miningمعطبلت قلرة لتتقيبلف لل لت تمثل

تتللبل ت للت لتتة بلل للةلر عتتلل للل بللر لتوللة ت ولأ قولعللر معطبللت للالم رل ملل تقبؤبلل ومل عل لتقولحل لتتل ت م ت م لتمعطبت لت الم لتتل توترهت مسلبة عمل لت لتبومبل

طببل ماتهبملا لتقيةبل تت بقبل لأرول لتتلل بول متسلتة ت لبلر همبل هلال لتعللت ت لبلر ي مللل هلللاا لأرول هلللوحلللو مللل لت لللعف لتاللللتا لتيلللةلةغلللرل حتللل ، ملللتبم بأسلللة

تيلللرت لترةلسللل ميتةقلللً بلللب رلتلللل لتتقيبلللف لللل لتمعطبلللت لأمثللل أرله م متلللج لتمة لللو ب لر Rو تغل لتبةم ل Rapidminerلأ ثة لستالرلمًت و يًت الستطصعت لتة ي وهملت:

سللبع مسللتعر لتبتحلل و لتمطللوة عللل لالتبللتة لأقسللف ببق مللت لعتمللر لتميتةقلل عللل إم تقبلت ، لت لب لتمتتحل تللرال ولتاللة ، لتالولة مبلت لتم لمق ، معتببة: مق ل لتعمل

بتطببلل م موعلل لأرله ،لتبقبلل ولم تقبللت لتتطللوبة ،تيبللبت لتمسللتالرمب ،لتتمثبلل لتةسللوملو بتسللتالرلت (data setمل الولة مبللت لتت لقب عللل علرر ملل م موعلت لتببتقللت

ملل الللص لترةلسلل تلتأ للر ملل لتقتللت hold-outو cross validationتيقبتللل تيسللبت هلللل لأرل لتتلللل تلللرعت بلللة علللرر مللل لتالولة مبلللت و لللب لتلللرال ولتالللللة Rتبلللب

مل حبل سل وت لالسلتالرلت و رعملا تعلرر Rapidminerببقملت تالو ،ولتتمثب لتةسلومللتتلللل بقبللل بتسلللتالرلت رقللل لتم لللقات مللل حبللل لأرله ت مللل بلللة مللل مق لللت لتعمللل

حبلل تللت لتمعطبللت لتتللل ة للت ت طببعلل عللل إال للل بعللال لتحللتال تقلل Rم تبللت بلللللتة لللللل تا لللللب ي لأرلتلللللب لتال غلللللروب البلللللةلً و للللل ي مةحلللللل معتت للللل مسلللللبي ب

البة لتمستالرت وهر ا م لستالرلت لالرل ى عل مرمعتمرلً الولة مبللللت ، الولة مبللللت لتت للللقب ، رول ،بتقللللت لسللللتة ت لتب ،لتتقيبللللف للللل لتببتقللللت :الكممااااات الميتاحيااااة

لتت مب

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

190

Comparative Study between R and

Rapidminer as Data mining Tools

Abstract

The ability of data mining to provide predictive information

derived from huge databases became an effective tool in the hands

of companies and individuals، allowing them to focus on areas that

are important to them from the massive data generated by the

march of their daily lives. Along with the increasing importance of

this science there was a rapidly increasing in the tools that produced

to implement the theory concepts as fast as possible. So it will be

hard to take a decision on which of these tools is the best to

perform the desired task. This study provides a comparison

between the two most commonly used data mining tools according

to opinion polls، namely: Rapidminer and R programming language

in order to help researchers and developers to choose the best suited

tool for them between the two. Adopted the comparison on seven

criteria: platform، algorithms، input/output formats، visualization،

user’s evaluation، infrastructure and potential development، and

performance by applying a set of classification algorithms on a

number of data sets and using two techniques to split data set: cross

validation and hold-out to make sure of the results. The Results

show that R supports the largest number of algorithms، input/output

formats، and visualization. While Rapidminer superiority in terms

of ease of use and support for a greater number of platforms. In

terms of performance the accuracy of classification models that

were built using the R packages were higher. That was not true in

some cases imposed by the nature of the data because we did not

added any pre-processing stage. Finally the preference option in

any tool is depending on the extent of the user experience and

purpose that the tool is used for.

KEYWORDS: Data Mining، R، Rapidminer، Classification،

Clustering، Tools، Information Retrieval.

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

191

I. مقدمةال : رول لتتقيبلف لل عل لتبب ل لتتلل بم ل تسلتالرت لمق ت ق ل برلبلً ت لوةلً

وقو لتمستالرمب لتاب قر بتعتملو مع ت لتمعطبت ب لتعتلتر وقيلت لتتولغوتل ت حتسلف متاتت و بب لالستالرلت بو عتت م

بللروةهت تللرعت محلبلل و السللل ب (، لقتةق مت للل عبللة وللب ت ملل قللول عللر قغالللل لتحت لللل بولللل ل تةل للللل تيولعللللر ببتقللللت و ملاللللت وال ، للللوال بةوتو عللللر

ملل م للت ثللة تتمثبلل لتببتقللت ملل لحتمللت تللو لتببتقللت لتمللةلر تحلبل للت عللل مو ع لتقيت لتت مالرت و بو و م مت بعة بما و

علل محللل لللب بم للت لتتقيبللف بتتببتقللت بحتللت رل تبيبللا بعبللرلً :لتمسللتالرت و ل تعتملللللرهت لتالولة مبلللللت لتمسلللللتالرم ح لللللت ب لتتلللللولإل لتتات لللللب لتةبت لللللب سة تلتعلت ت رل س ل لتا ت ولالستالرلت و مستالرت مبترىه بحت

تيلللوت هلللاا لترةلسللل بميتةقللل لأرلتلللب لأ ثلللة لسلللتالرلمًت تلتقيبلللف لللل لتمعطبلللت : تغللل تتسلللتعر قلللوعل لتمسلللتالرمب لتملللا وةب سلللتبيًت لللل لالتبلللتة Rapidminerو Rلتبةم للل

لترةلسلل و يللًت تمللت قيملل لأقسللف بللب لأرلتللب ملل مةلعللت بب لل لالسللتالرلت لتتللل بمتل للت لأعمللت لتسللتبي للل م للت ميتةقلل لرول ،: لتتعةبلل بما للوت لتتقيبللف للل لتمعطبللت بلللل

رلتللب ومعللتببة ولتللاي ببللر بتعةبلل لأ لتمالللت بتتميتةقلل لتيسللت ،لتتقيبللف للل لتمعطبللت لل تتقتلللت ب لتيسلللت لأالبللة لتمعقلللل لتميتةقللل و يللًت ت للل معبللتة و لللواًل إتلل لتميتةقلل ثلللت با

ولتتو بت II. الهدف:

تيلللرت لترةلسللل ميتةقلللً بلللب رلتلللل لتتقيبلللف لللل لتمعطبلللت لأ ثلللة لسلللتالرلمًت و يلللًت لتمسلللتالرت ب لللر مسلللتعر Rو تغللل لتبةم للل Rapidminerالسلللتطصعت لتلللة ي وهملللت: لتالولة مبلل لتتللل ،تبب لل لالسللتالرلت لتتللل بعملل للمق تو يللًت عللل لالتبللتة لأقسللف ببق مللت

لبغ لتاللة لتتلل ، لبغ لتمعطبلت لتتلل بمتل لت لرال تلالولة مبل ،بةغلف بتطببي لت لتللللرعت ولتحلللللو وللللعبب لأرل لتتللللل تللللقع عللللل تللللو ة البللللةلً و ،بقللللوي لتح للللو علب للللت

تلموت لتتل قر تعتة ا ترى لستالرلم ت

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

192

III. التنقيب في المعطياتData Mining عملبل وبسلم حبتقلًت ب ،هو عملب ل توت معة مابر م لتمعطبت لت ببة لأبعتر

لالسلت (KDD-knowledge discovery from data ل تولت لتمعة ل مل لتببتقلت مابلللر ملللل تقموا بللل لتمتبعللل السلللتالص معطبلللت لتعملبلللت لعللل سلسلللل لتلللاي بعبلللة

بم للل تقالللا مللل لتويلللت لتتتتبللل KDDتتلللأت سلسلللل عملبلللت لتمعطبلللت لتاللللتت و عل مةلح مقا ل و ترم معًت(:

ت بpreprocessing لتمعطبت ) لتتقيبف ل لتمعطبت تحلب قتت لتعمpost processing) [2]

، لل هًل م مللًص تعللرر ملل لتم للتال لأالللةى متلل لإلح للته لتتقيبللف للل لتمعطبللت بعتبللةلإلي لتة ،لتتعلة علل لتقملتا ،قولعلر لتببتقلت ،(machine learningتلل لتتعلت لآل

بول علتت إتل تيسلت الولة مبلت لتتقيبلف لل لتمعطبلت ملت [6] لسلتة ت لتببتقلت ،الولة مبللت لتللتعلت بللرو ،( supervisedلتللتعلت تحلل إوللةل الولة مبللت ثصثلل قللول :

لللللل وللللل ة مثمللللل ( semi-supervised( وقملللللط ه لللللب unsupervisedإولللللةل و لل مثل هلاا لتالولة مبلت (classificationلتت لقب خوارزميات التعمم تحت إشراف

بلتة لتتللل تمتلللج بلتت تيسللبت لتمعطبلت إتلل م ملوعتب : معطبللت لتتلرةبف ومعطبللت لالالتثللت تسللتالرت معطبللت لتتللرةبف للل بقللته قمللتا لتت للقب لتتللل تسللتالرت للل (label)وسللمًت

-kلت بلةل لأقلةف –(naive Bayesلتم لق لتبولسلتقل -لتتقبلؤ مثل ول تة لتيلةلةnearest neighborsبلللل اتلج لالتبللتة رله قمللتا لتت للقب ملل الللص ، ( وغبةهللت

خوارزميااات الااتعمم باادون للمم ببقمللت تطببي للت عللل معطبللت لالالتبللتة وحسللتف لترقلل تلتعتمللل مللل لتمعطبلللت بلللرو وسلللت محلللرر و وللل ة مثلت لللت الولة مبلللت لتت مبللل إشاااراف

Clustering مثلللل )K-means و لتت مبلللل لت ةملللللhierarchicalللللل ( ولتت مبلللل ع

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

193

علل مبلر لتتولتبا مبع لت تعتملرو (density-based clustering ست لت ثت بلتت قبلت لتتولتبا مل اللص لتميلتبب و وتبا تت مب لتمعطبلت لم عقتقبلرعرت لتت و

توللللتبا ،(Minkowski)بعللللر مبق و سلللل ل ،(Euclidean)لتتيةبببلللل مثلللل لتبعللللر لإلقلبللللري تللةلبط ،(Jaccard coeffcientمعتملل ت للتةر ،(cosine similarity بللف لتتمللتت

-semi) الاااانمط الهجااااين مللللت ( وغبةهللللتPearson's correlationببةلسللللو supervised) مبللل ببلللة مللل باتلللةال و لللور علللرر قلبللل مللل لتمعطبلللت تمتللللج وسلللت و

semi-supervisedقلللوعب ستسلللب لتت لللقب لت لللب ب لللت لتمعطبلللت بلللرو وسلللت و classification) لتت مبلل لت للب وsemi-supervised clustering بسلللتالرت )

لتمعطبللللت ال لتوسللللت تلت للللقب ثللللت بسللللتالرت بيبلللل لتمعطبللللت للللل تحسللللب لتقللللو لأو و ال لتوسللت للرتب تعملبلل لتت مبلل لتت للقب ببقمللت بعتمللر لتقللو لتثللتقل عللل لتمعطبللت

بللتت لالسللتاتر ملل م للتةل لأوللالت لتالبللةله للل لتم للت تو لل ب للف لإلوللتة إتلل قللا تقنياات خخار ب ت لتتقيبف ل لتمعطبت مت [2]وست تلمعطبت ت بتر موثوقب لتقتت لت ول علل ،( association rule mining مثل : لتتقيبلف بتسللتالرلت قولعلر لالةتبلتط

( feature selectionلالتبلتة و ل لتمبل ل ،(anomaly detectionلتحتال لتوتا تصطلللص علللل تات لللب ثلللة عللل هلللاا ( visual analyticsولتتحلبللل لتمة لللل ،

[5][4][3][2][6]لتتيقبت بم لتعور إت IV. : األعمال السابقة

: لتمعطبللت تقيبللف للل رول لتال للت ت تً عتملل تً مالططلل [13] للتةبة و الللةو لل و ، لتمسللللتالرت مبلللل ل ول لللل ،ممبلللل ل مةتبطلللل بتتعملبلللل لت للللر لتت للللتةي، قللللو لتقمللللوا ،

14إتلل قللف ملل قتعللر ببتقللت ربقتمب بلل ملل قبللتً معلومللت لتمقللت (متطلبللت لتقيللتت و بم للللل ل يبتسللللللتمالطلللللط هلللللال لت قلللللا مللللل مسلللللتعر لو لللللحو و ولللللعبب رول لأمللللل ثلللللة

لأرل لتتل تحي هرل لتعم تلمستالرمب لالتبتة

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

194

تبللل ولبب للل تتيبلللبت رول لتتقيبلللف لللل لتمعطبلللت وولللةح [11] لللوتبة و اللللةو لقتلللة لتتقيبلللف لللل لتمعطبلللت لللل م لللت لسلللتالرم ت تلتيبلللبت ولتتلللل تسلللتقر علللل البلللةل مبتولللة

ةبل عتملرولب م م موع متقوع م لت قتعت وقلر لت تة بتستالرلت م موعت ببتقت ت سل وت لالسلتالرلت، ورعلت لتملحيل ، ويلت لترول : لأرله، لأمعلتببة تتيبلبت مل لت ت قمللت ت ت ل تطببيللت تعتبلة لأ لل رل ولحللر قللا ال بو لر تبثبتلو لتتقيبلف للل لتمعطبلت ول

عل لتةبتر ل سو بةم بت لتتقيبف ل لتمعطبت رول تتوتةج عر لتمسللتالرم لتمعطبللت المسلل ملل هللت رول لتتقيبللف للل [8] بللو و الللةو قللتة

الق لت لالتبلتة تلب لت مةحلل تيبلبت عمبل و ل و لتغش واتلج علل ملةحلتب : مةحللرول لتعوللة رل و يللت تسللت معللتببة تبللتت لالتبللتة لأ 14لتمةحللل لأوتلل تللت تيبللبت ثللة ملل

بملت معميلًت و يلت تمعلتببة إ لت ب مل قبل البلةله تيبم لت تيإعلتر بلتت ال لتتيببت لأعلل ثلت وتلت لالتبلتة تبالتتةو لأرول لتالم لأعل تيبمًت تت و مو لتتيبلبت لتموسل لتق لت ل

Clementine، Darwin، Enterprise Miner، Intelligent Miner، PRW تتولللغب لالتلللل ولللمل لتمعلللتببة لتق ت بللل تلميتةقللل م لللت لتالولة مبلللت لتمحييللل لم تقبللل ل

ي لة لتقتلت لل ول لتغلش لو لالحتبلت وقلر س وت لالسلتالرلت و لترقل لال متتبلقللر ب للو لالقسللف مق للت لل ال للت ممتللت وملل اتللج تمتلللج لتالملل مقت للت لت مبلل

Clementineهلل لتةل لر لل لتسلو و Intelligent Miner لتعتبةو بب ل مالتلال تمقتسلف تععملت لالح لت ب Enterprise Minerتتالو بتتلرعت وسل وت لالسلتالرلت ملت

PRWلتالبللتة لأ لل عقللرمت ق للتت تسللةع قيلل لتببتقللت عبللة لتوللب و البللةًل Darwinو ل حت تت ب البتة لتالولة مب لتول ف لستالرلم ت ول حًت

هل : ول رله الم ر [15] هب و تل البةًل قتة وحل م

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

195

IBM intelligent miner ، SPSS Clementine ، SAS enterprise miner، Oracle data miner، and Microsoft business intelligence development studio

لتتللللللل لسللللللتالرم تتطببلللللل معبللللللتةًل تلميتةقلللللل بللللللب لأرول 88لسللللللتالرت لتبللللللتحثو حبلللللل ،لتتيسلبت ،قب لتت ل ،لتت مبل الولة مبت مرعوم مل قبل لأرول لتالمل وتت لم :

و ع مق ت قو قرم لتقتت مةل ع ت اا لأرول مي ة قيتط لتتحلب لتتسلسلل و و Rبعر مةل ع لترةلست لتسلتبي تلت تولم لتميتةقلت لأرلتلب لتمرةوسلتب تغل لتبةم ل

Rapidminer تللت لقتت للت ملل قبلل عللل رول وللم حبلل ة لل غلللف لتميتةقللت معللًت ت لرلة مل وقتب الحتص هلتتب لأرلتلب ل مث لوةل ومتب ةوسو وة ت ببة

هبت لتالبلتة لأو تمل بةبلر تطببل مالت سلت وقت حب رة لالسلتالرلت و يلًت السلتطصعت الرت ل لالتبتة حرهمت تمستعر لتمستلتمعطبت وم لتمابر ميتةقت مت لتتقيبف ل

V. :الدراسة المقارنة :تعريف باألداتين قيد الدراسة . خ

تاتة لت مقبل لتتلل لترلتلب قبلر لترةلسل هلت لتمعلوملت عل لأتعةال هاا لتاية م تقبللت ميبوتلل قتب لل رل لتتللل تيللرت إ للتألسللتل مت ت لأرل تت لل إتلل إ للرلةهت لتحللتتل

واتلج طلو وتيلرت ال لإلم تقلت تً و بل ت لتهل رل لسلتغة تطوبةهلت مقلتاتة تطوبة اب سلللمته لأولللالت لتلللمللل تقوبلللا أ أرل ل ةا لللة لتعلللتت لتلللاي بلللره بلللا تطلللوبمللل اللللص

والقغال لاتج تب هال لتطةب حت وقتقلت لتحلتتل لتالطوط لالوت تتطوبةهت وم بت لو عو م تقبلللل لتلغلللل و لتم للللرةب لتح للللو عللللل لتوللللباة لتتطللللة تمو للللو لت لالللل لتمتربلللل ول

لأستسب لتتل تف ب ت R & RapidMinerف بكل من يتعر (1)جدول

R [32][17] Rapidminer [28][32] لأرل

لتوعتة

بب بةم ب تغ بةم و لتتو ب تلتعتم م لتحستبت لالح ت ب

غةلال تستالرت أبب بةم ب تتعتم م و تعلبمب بحثب ترةببب

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

196

ولتةسوت لتببتقب بتت لستالرلم ت عتر ل م تال لتتقيبف ل

وتحلب لتببتقت لالح ته لتببتقت

لتتقيبف ل لتببتقت لتتقيبف ل بو ل قلتق و لتتحلب لتت

لالقت تري ولتتحلب برلب لتتطوبة

7995 1007

لال رلة لتحتتل

1.7.7

1072-05-70

4

1072-03-01

r-project.org لتموق sourceforge.net/projects/ra

pidminer

Ihaka &Gentleman لتمطوة

Ralf Klinkenberg، Ingo

Mierswa،

Simon Fischer

ة لتتطوبة R Foundation Rapid-I company لتحتتل

م تقل لت لا Free Community Edition

Commercial Enterprise

Edition

GPL GNU لتتةالب AGPL (Community Edition)

Closed (Enterprise Edition)

تغ لتبةم

R interpreted language JAVA

معايير المقارنة . ب سقعتمر لتمعتببة لتتتتب ثقته لتميتةق :

(platform مق لتعم (4 (Included Algorithms) لتالولة مبت لتم مق (2 ( (Input/ Output Formatsلت ب لتمتتح تلرال ولتالة (8 (Visual Representation إم تقبت لتتمثب لتةسومل (1 ((Users Evaluationتيببت لتمستالرمب (5

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

197

م تقبت لتتطوبةول لتتحتب لتبقب (6(Infrastructure and development)

(Performanceلأرله (7 المقارنة و النتائج . ت

:منصة العمل وفق .1 حب قصحلللللي ،ر وقيلللللتت لتتولللللغب بولللللم ما لللللوت مق للللل لتعمللللل علللللتر لتعتلللللت

Rapidminer بتمت بتول يب عتتب م ت ل لتمق لت ببقملت التلرعتR بعلال لتمق لتم ت مق ت لتعمل إتل وقلا Rapidminerبعور سبف تول ل DOS[17]مث

لتوهمبلل تللبتسللتالرلم ت ولتتللل تعتمللر مبللر لآل لتتللل بقللل javaبللة هللاا لتالت للب ملل تغلل تعملللل وللللةطتً JVM طبيلللل وسللللبط تغطللللل لالللللتص لتبقبلللل لتتحتبلللل ممللللت ب علللل و للللور

Rapidminer [28] تتوللتةج لل ملل لالرلتللب للل رعم للت تعللرر ملل تو بعللت تبقللووبعلللر مللل هلللت لتممبللل ل لتمولللتة حتللل متعلللرر لتقلللولا مق ت هب لبتلللب تلمعتت لللت والوللل ة

[17,28] مالرت بو لالرلتب بو محلل و م قموا لم تقب عم م ب تً

Plateformsمقارنة من ناحية منصة العمل (2) جدول

Windows Mac Linux BSD Unix DOS Android منصة العمل

R [17] Rapid Miner

[28]

X86-x64لتمعتت ت -: برعت م لأرلتب multi-cores)and even computing clusters - )

،Linux( :Debian، Redhatلتتو بعت لتتتتب م -

SUSE، Ubuntu)

Client-server[30]و Stand-aloneتي ة بو -

21] [22،7،الخوارزميات المضمنة وفق .2

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

198

علرر مل لتمعلتمص هم لت ت قتب لتببتقت يت قو لأرل ل حي لتتقيبف لتلأرلتللب تيبللبت تللت بغللةال ت رعم للت للم لأرل ورقلل قتت للت عللرر لتالولة مبللت لتتللل بللت IEEE ملؤتمة لل لقتالتب لتتلت لتعوة لأ لتتلل الولة مبت إ ةله تحي م تول ة لت

International Conference on Data Mining (ICDM 2446علتت ل هوق وقل :تلتقيبف ل لتببتقت لأستسب الولة مبت لتهل م ب م و

(Anomaly detection ، Association rule learning، Clustering ، Classification ، Regression ، Summarization) [7].

ICDM قبل من المعرفة العشر الخوارزميات حيث من مقارنة( 3)جدول

R [21] RapidMiner [22] التصنيف الخوارزمية

C4.5 classification

k-Means clustring

SVM Machine

learning

Apriori frequent itemsets

EM Clustring

PageRank Weighting

AdaBoost Classification

kNN Classification

Naive Bayes Association

Rules

CART Classification

and Regression

واتلج بتالتبلتة بأسللوف اللةلتميتةقل تتترلتب تاتج سلتعتر بب لأو ور بصحيبللب لتالولة مبللت لتمو للور ثللت لتميتةقلل معطبللت للب لأستسللب تلتقيبللف للل لتل حللر لتمو

مو لللللو ل و بتالتبلللللتة ت لللللتوملللللرى تحيبللللل للللل مللللل لأرلتلللللب لللللم هلللللال لتمو لللللو clustering ق للللللللر تيللللللللرتR بحللللللللولتل ثللللللللص الولة مبللللللللت تللللللللب ت للللللللت تحيبلللللللل للللللللم

RapidMiner التي تقدمها Clustring ة بين األداتين على اساس خوارزمياتالمقارن (4)جدول

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

199

R [21] RapidMiner [22] الخوارزمية

K-Means

K-Medoids

Kernel K-Means

X-Means

Cobweb

Clope

DBScan

Em

Support Vector Clustering

Self-organizing maps

Agglomerative

Top Down

fuzzy clustering

BIRCH algorithm

Mahalanobis Fixed Point

Clustering

للبل ملل لتول للل مطللوةي هللتتب لأرلتللب بتسللتبيو للل تغطبلل بللة عللرر بعللور سللبب ت إتلل ق للت لتما للل تللرى لتبللتحثب R مم لل ملل لتالولة مبللت ملل لللب

ومل قتحبل اللةى Rتاتج ترى ي لوة الولة مبل ربلر سلق ر ح مل ت لت م توبل بلغل ل م لللمقا ب عللل لأرلتلللب بسلللبةل للل Rم تقبللل لسلللتالرلت حللل ت إل Rapidminerإ لللت

لتالولة مبت الطب متول بب م قتحب تحيب

والخرجالصيغ المتاحة لمدخل وفق .3إتلللللل لتالبللللللتةل سللللللب و تو للللللا لتميتةقلللللل هقللللللت

سللوله ملل لتمتتحلل تلمسللتالرت تبح لل عللل ببتقتتللاقيلت و رول بةم بل ،لقتةقل ،قولعر ببتقت ،ملات

إتلللل مللللرى مةوقلللل لأرل للللل و ب للللتً الللللةى الولة مبلللللت لتتقيبلللللف لللللل تالللللل ب قتب للللل تطببللللل

و Rاحتماالت الدخل لكل من ) 1(شكل

Rapidminer

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

200

مالططللللت ،م للللقات و عقتقبللللر ،م وبلللل قسللللف ،لة لولللل تة قللللة ،قولعللللر لتمعطبللللت علل لتتعتمل مل رول وقيلت حب بو ل هال لت تقف قرة لأرل لتبةم بل ( ببتقب عل سبب لتمثت ال لتح ة(لت ب بعال سقا ة الةى تللت Rapidminerعللل لتتعتملل ملل غلللف للب لتللرال و لتالللة ببقمللت R قللرة بصحللي

بتتم ملل للص لأرلتللب وت لل .…stata، Minitab، S-PLUSبيللرت رعللت ت للب مثلل رعم لت ب لأو ة الخرج المدعومة في األداتينومقارنة صيغ الدخل ( 5)جدول

الصيغةR [25] RapidMiner [23]

خرج دخل خرج دخل

text file(ASCII،.dat)

Binary

Files(HDF5،netCDF)

Excel spreadsheet and

ODS(.csv،.delim،.DIF) .cvs .cvs

Network

Connection(Socket)

Webpages

RSSfeeds،

web

services

Web

based

reports

SPSS

SAS( .ssd or.sas7bdat) Using JDB

Stata

EpiInfo(.REC)

Minitab

S-PLUS

Systat( .sys ،.syd)

Octave

DBMSs

(Informix، Oracle،

Sybase; IBM's

DB2،Microsoft SQL

ServerMySQL،

PostgreSQL، Microsoft

Access)

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

201

ODBC(.dbf،.xls) عن طريق

JDBC

عن طريق

JDBC

DBF

Xml

SAP

Pdf، html

Audio

Weka

Images

مكانيات التمثيل الرسومي إوفق .4تمحلللل لتمصحيللل ولالسلللتقتت علللل لعلللةال لتببتقلللت بوللل ببلللتقل عملبللل بسللل

قةف و س تلا ت م لتةملو ولتعصقلت لتةبت لب لتمالططت لتببتقب بأقوع ت لتمالتلا و مللللل لتول لللللل لللللو ميتةقللللل لتقتلللللت بلللللب ثلللللة مللللل لرل و قيلللللتتمللللل قتحبللللل ولسللللل

Rapidminer لالتبللتة بللب ،بتمتلل بول لل تصسللتالرلت للو بتللبل عملبللت ت للغبة وت ببةإ لللت إتللل لتةسلللوت ،ةى علللر سلللمت تعتلللول وقسلللل وت للل تصوللل ت إتللل بلللةلم لالللل

عقلول ولتاللط ولتمصحيلت لت تقببل و بول علتت قتبلل تلتعلرب مل حبل لتللو ولت لتببتقب لال مللت قيةقلت أقللول لتمالططلت لتتللل بم لل لص لأرلتللب تعتبلة قوبلل لل هللاا لتقتحبل

ولتتللللل ت عللللا سلللل Rapidminerتوتلللرهت و ت للل لتتاتعلبلللل لتتلللل تحللللرثقت عق لللت لللم Rلستعمتاًل غبة متول ة ل

مقارنة من حيث الرسوم البيانية (6) جدول

R [1] RapidMiner [22,23] (plot)المخطط

bar chart

Line

Bubble

Deviation

Density

Survey plots

pie chart

Histogram

Box

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

202

Scatter

Cleveland dot

QQ (quantile-quantile)

Parallel

conditioning plot

scatterplot matrix

kernel density

Contour

Association

Mosaic

Perspective

Surfaces

3d scatter plots

two-way interaction

various interactive charts

produced with the Google

Visualisation API

Maps

Andrews curves

Quartile

[23] [27][29]تقييم المستخدمينالمقارنة وفق .5بتتمةلتللف لأوتلل حتلل بممبلل ل عتتبلل تلل ت للق تمتعلل لأرل لتبةم بلل م مللت

لتتلل تتطللف مل لتمسلتالرت بلتعلت R لقبلر مل الرت لتق ت ل تلقيتتتحي بة لتمستقولعللر لتبةم لل ولت للبتغ لتمقتسللب تتحلبلل ببتقتتللا بتسللتالرم ت وطةبيلل لتتعتملل لال تةل للب

علرر مل بب لت ي لوة لتولسل ر ل تمل لإلولتة إتل لقتولتةهت ولملةهلل مو لا لأ مع تول للللللل RapidMiner ببقملللللللت بمتللللللللج rettale ،RStudioمثللللللل Rلتتطلللللللوبة بلغللللللل تة بلف تم موعل مل عملبل م لةر لتتقيبلف لل لتمعطبلت مةلحل عل لستالرلت مقيم ت

لل أحت ق لت تعلةال ةسلت بو لور الطل Drag-Dropبطةبي operators معتمص لتة قلرة علل لتح لت علل وتق لو ثلقتةلحلت ت بابل لتتغللف علل لتالطلأ عملب لتتة بلف ول

لتللةغت ملل لتاللتة لتول للل للل سلل وت لسللتالرلم مت تللت لتة للو إتلل للل لأرلتللب ع وللعبب

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

203

( تقات للأ KDNuggets ولل ة مولقلل لسللتطصعت لتللة ي لتالت لل بتتتقيبللف للل لتببتقللت ماهي خداة التنقيب عان البياناات التاي اساتخدمتها "تتل تلت وب رى طة لتسؤل لتتت قا

"شهرا اليائتة النجاز مهام واقعية وليس فقط ألغراض تحميمية ؟ 12خالل ال لأوتللل يلللط( 45لقت لللةقت علللل لأرول لللل لتمةلتلللف ل تقللل لتقتلللت ملللت لللل لتوللل

لتم تقبللل ماتوحللل لتم لللرة بلللت قبلللت علللل لتبةمبم للل بسللل وت مصحيللل ت لبلللر لإلحبللل % مللل لالولللالت لتللللاب ولللتة و لللل هللللاا لالسلللتطص لسلللتالرمو بةم بللللت 78تل ول حللل

% ت تتل لتبةم بت لتم تقب لتمغلي لتم رة28ماتوح لتم رة وم تقب وحولتل Rapidminer حل مل تالو تل صتلب قيلوت بميتةقت ملت لتلت رة لأرلتب لتوم لتول ل

2014أدوات التنقيب في البيانات األكثر استخدام عام ( 2)شكل

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

204

44.2حللولتل إتل 2448% علتت 39.2ملل مبارعلرر مسلتال لةتاللت إتل لت إ Rعلل 2441% عتت

عللل ل Rل بللا تاللو ت طللة سللؤل الللة بعطللل مقيللوةل للم لتموقلل لالت تةوقللل التللا Rapidminer ماهي لغة البرمجة الميضمة لاديك " : ال وهوم قتحب لقبت لتمستالرمب

لتلغلل لتتللل javaعللل Rتق للر تيللرمت ول للحأ تلل "؟ لمتعاماال ماات التنقيااب فااي البيانااات بغللال لتقيللة علل رعللت لل ملل لأرلتللب تعللرر ملل Rapidminerتسللتالرت تتطللوبة ل

لتلغت لأالةى لتموموت ل لتيت م رقتا( للتنقيب في البيانات 2114( لغات البرمجة األكثر استخداما عام 3)شكل

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

205

خليه التطوير و التحتيةالبنية وفق .6تمتللج لص لأرلتللب بقبل قتبللل تلتطلوبة تم قللج مل تتبل لل له الت ل بللج ول لت ت ت إتلل

لأرل وإمكانية التطويرمقارنة األداتين وفق البنية 7 جدول

R [1,26] RapidMiner [24]

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

206

مب ويت ا ت ميرم عل تغ ماسة لتبقب و معة م Built-inو تولب

م مع م ح ت قب لتمستالرت packagesبةم ب

Normalم ل بت و م م موع operators و لsuper operators تقاا عملبت محرر

Data objectsعل إم تقب لتتطوبة

الل ح ت إ ت بadd-on packages

تتب توثب ت R ح ت رله وسةع تةتبف وتحسب

Rل تتب API تتسمل بتستالرت ور

لغت بةم ب الةىم توف ب Cمث R م ل

تعمبت تتولب ول ةل بت مو ور ةبطGUI وغبةهت م ل

Front-Ends

لتمتتح معتمص لستالرلت لت ل تةل بت تتحيب ويت لالةى

إ ت تتب Extension operatorsالت بج معة ت

data رب ومعطبت ربر objects

مثص ف الت إ ت لستالرلتWeka وR

تقييم خداء األداتين: .7لالتبللتة عللر م موعللت ملل ملل لتالطللول لتتتتبلل : لأرلهرةلسلل مق بلل تت للو

( ثلت تطببل Classificationوم موع م الولة مبلت لتت لقب (DataSetلتببتقت لحتسلتف رقل بللل اتلجالولة مبت لتت قب عل م موعت لتببتقلت بتسلتالرلت لأرلتلب

تقلرة k-fold cross validation و Hold-outلتم لقات بطةبيتلل تيسلبت تلعبقلت تأثبة لأرله بتغببة قمط تيسبت لتعبقت

منهجية تقييم أداء األداتين المدروستين )4)شكل

وارزميات خ التصنيف

النتائج والتقييم

مجموعات البيانات

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

207

:مجموعات البيانات المستخدمة . خ UCI-repository[31]تلللللت لتح لللللو علللللل م موعلللللت لتببتقلللللت مللللل مالللللل

حبل تلت تو لب ، تتيبلبت رله لأرلتلب لتمالتلتة لتت قب و مبع ت مو الق ت م م تلت لالتبلتة و لتالول وعلرر لتعبقلت و لتاللول و م موع م الص قو لتمعطبت

حبل تللةلو علرر لتعبقللت وم لتال مالتلالل هلاا لتم موعللت أق لت تمتلللج الول لًت مالتلالل ملت بع ل ت ب لت قوعلًت 57إتل 6و علرر لتاللول مل 4425444 إتل 178 مل

البللةًل هقللتج تبللتب للل قسللب عللرر ول ببقمللت ب للت لأالللة ثللة ملل قللو و ملل لتاللل ولحللرلً لتالول إت عرر لتعبقت

مجموعات البيانات المستخدمة في تقييم األداء )8(جدول

نوع االسم المعطيات

نوع الخواصattributes

عدد العينات

عدد الخواص

المجال

Spambase(SB) Multivariate Integer، Real

1644 57 Computer

Breast Cancer Wisconsin(BC)

Multivariate Integer 699 44 life

Car Evaluation(CE) Multivariate Categorical 4728 6 industrial Nursery(N) Multivariate Categorical 42964 8 Social Wine (W) Multivariate Integer، Real 478 48 Physical

Poker Hand(PH) Multivariate Categorical، Integer

4425444

10 Game

Bank Marketing (BM) Multivariate Real 15244 16 Business

خوارزميات التصنيف المستخدمة في التقييم : . ب

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

208

ثلص مل ول ةهتهقتج لت ثبة مل الولة مبلت لتتو لب وقلر تلت لالعتملتر علل بلر عطبلت ومتلول ة لل لص لأرلتلب قولتتل بم لب ترهت ل لغلف رول لتتقيبف ل لتم

لترةلس وهل :Naïve Bayes (NB)[16][20]، Decision Tree Classifier [9]، and the K Nearest Neighbor (KNN) [27] [28] [29].

:تقسيم العينات لبناء المصنفخلية . تعلللل قمطلللل تيسلللبت تلعبقلللت إتللل م ملللوعتب : م موعللل تلللرةبف و تلللت لالعتملللتر

ولت لر مل اتلج مصحيل ي تحسل لل رله لأرلتلب عقلر لالقتيلت مل م موع لالتبتةو بلا تيسلت لتعبقلت إتل K-fold cross validation)) لتلقمط لأو هلو قملط أاللة

K م موعلل مقا للل ثللت بللتت تللرةبف لتم للق علللK-1 تبللتقل هللو م موعلل م موعلل ولوسلو قتب ل تلت لقب ملة وبؤاللا لتقلتت لال ملتتل Kلالالتبلتة وت لةة هلاا لتعملبل

إتلللل م مللللوعتب بعتمللللر عللللل لتتيسللللبت (Holdout) مللللت لتللللقمط لتثللللتقل .K=10 قسللللتالرتملل لتعبقللت م موعلل تللرةبف و %66وملل لتوللت لسللتالرلت و لل قسللب م وبلل عوللول بًت لالتبتة موع لتبتقل م

:[17] المصنف تقييم معيار . ث (Recognition) )/P+N n+TpT لتتمبب و قرةتا عل Accuracyرق لتم ق

علرر لتعبقلت ، تببل بعلرر لتعبقلت لال ،تسللبب هل علرر لتعبقلت ل TP،TN،P، Nحب عللرر لتعبقللت لتتللل للقا بولل للحبل ،لتتللل للقا بولل للحبل عللل لق للت سلللبب

عل لق ت لب تبب واتج عل لتتةتبف م لتبمب تلبستة

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

209

: والمناقشة نتائج التقييم . جو 2GHبسلةع core i7لقتل ةبل لتت ةبل علل حتسلف محملو بمتللج معلتت

بتسلتالرلت (7Home premiumقيلتت وبقلرو ،غبغلت ال لة عولول ب 8 ، بل 61ب ةمبل Rapidminer studio 6 وRstudio 0.98.1028 ملل قمللط لتتيسللبت و لل قسللب م وبلل تةلوحلل قللرة Rapidminerقصحللي قللا عقللر لسللتالرلت

قصحلي ملت %444-%48 14لتم ق لتبتب بتقل عل لتتعة عل ق لتعبقل بلب ببقملت %(54-%46 97 ول تة لتيلةلة ببقا وبب لتم ق لتمعتمر عل تيتةبًت ل لترق

% 26.47 تت بأرق قبم ت ت تقحرة رق م ق لت تة لأقةف

%66 باستخدام التقسيم وفق النسبة المئوية Rapidminerمعايير التقييم ل (9)جدول

% SB BC CE N W PH BM NB 97 46 97 46 76 17 76 17 444.0 14 48 82 85 DT 76 17 97 46 78 58 76 17 91 42 54 44 79 14

K-NN 54 44 55 88 79 14 67 65 61 74 26 17 67 65

ملل قمللط لتتيسللبت و لل قسللب م وبلل تةلوحلل قللرة لتم للق لتبتب بللتقل R مللت عقللر لسللتالرلت وحلللت ي م لللق ولللل تة %98.01-%14 57علللل لتتعلللة علللل لللق لتعبقللل بلللب

بتتميتةقلل ملل رقلل م للق لت للتة لأقللةف للل قسللف عتتبلل و متيتةبلل ملل لترقلل ولتيللةلة عبقسلب ت ل حتل Rبتيرت هال لتقو م لتم لقات لم rapidminerلتمو ور م

% م لستالرلت قا معبتة لتتيسبت تعرلتب 84

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

210

%66باستخدام التقسيم وفق النسبة المئوية Rمعايير التقييم ل (10)جدول

% SB BC CE N W PH BM NB 98.01 91 44 85 44 90.00 98.44 57.40 87.90 DT 94 94 95 84 91 84 97 84 90.14 58.30 90.30

K-NN 80.2 81.09 91.05 75.90 84 44 41.05 89.10

تةلوحلللللل قللللللرة FoldCV-10وت للللل ملللللل قمللللللط لتتيسلللللبت Rapidminerبلللللتتعور إتلللللل حبلل % 98.30-%50.12لتم للق لتبتب بللتقل عللل لتتعللة عللل للق لتعبقلل بللب

% 9 رى تغببة قمط لتتيسبت إت بتر لترق عقر لتحر لأرق بحولتل

Rapidminerأداء المصنف البايزياني في (5) شكل

رًل حب ته ثلة مل ق ل تم ق لتمعتمر عل لو تة لتيةلة أي ة رق عتتب ل مت لةتاعل رقل م لق %و 54عل لتحر لأرق تلرق عقر %م لتمحت ي 94 و لتقتت

97

.06

97

.06

76

.47

76

.47

10

0

41

.18

82

.35

79

.68

95

.84

85

.99

90

.25

98

.3

50

.12

87

.64

S B B C C E N W P H B M

اني في يزي ا ب ل ا لمصنف ء ا دا RAPIDMINERخHoldout kf-CV

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

211

-%17 26بللللرال ملللل 79 88 -%17 16لت لللتة لأقللللةف بوللل ملحللللوي تتتللللةلو بلللب 79 14 %

Fold CV-10 وفق التقسيم باستخدام Rapidminer ل التقييم معايير )1(1جدول

% SB BC CE N W PH BM NB 79 68 95 81 85 99 94 25 98.30 50.12 87.64 DT 94 71 91 27 92 12 97 42 94 48 54 42 88 84

K-NN 71 49 65 52 76 41 85 72 68 44 16 17 88 79 تللت 10f-cvو البلةًل قصحلي لالقتيلت مل تيقبل لتتيسللبت و ل لتقسلب لتم وبل تل

حبللل لللت رله لتم لللق لتبتب بلللتقل بتلللةلو بلللب Rبة للل رل ملللًت رقللل لتم لللقات لللم و ملت %97.7 و %57.50 لبل بتسلتالرلت هلاا لتتيقبل بلب % 98.01و 57.4%

لي للللة رلهًل ببلللرو مللل لتمالطلللط لتببلللتقل رله لتم للللق لتمعتملللر علللل وللل تة لتيلللةلة م ق لت لتة لأقلةف لت ًل مت ببة لً متيتةبًت برة عتتب لت ب تتغببة تيقب لتتيسبت ثة

%44 ل لالرله بحولتل وسطبًت لأ ثة تأثةًل بتغببة تيقب لتتيسبت حب قصحي لةتاتعًت

r في القرار اشجار مصنف أداء( (6شكل

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

212

Fold CV-10 وفق التقسيم باستخدام R ل التقييم معايير )2(2جدول % SB BC CE N W PH BM NB 81.25 96 64 85 74 94 84 97.74 57.50 87.84 DT 92 44 95 64 91 84 98 44 89.24 55.30 90.20

K-NN 80.50 70.00 77.50 86.90 71 94 46.60 89.10

10f-cv استخدام عند األداتين أداء مقارنة (7)شكل

90

.9

95

.8

94

.8

97

.3

90

.1

58

.3

90

.3

92

.1

95

.6

94

.3

98

.1

89

.2

55

.3

90

.2

S B B C C E N W P H B M

ر في قرا ل ا ر داء مصنف اشجا RخHoldout kf-CV

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

213

ف عربلللر تلللت تلللت لالعتملللتر علللل م R لللل لتق تبللل قاللللل إتللل رله م تبلللت عطل قبملًت علل تلرقل ( .……caret،kalR، ElemStatLearn، gmodelsلهم لت

رو باللللو لأمللة ملل بعللال لالسللتثقتهل Rapidminerملل تلللج لتتللل لعطتهللت ل حلتال ولتا outliersو لور لتتل ة ت ت طببع معطبت م موعل لتببتقلت مل حبل

حل معتت ل مسلبي وحت يقلت علل ل تةل لبت و قي ل لتببتقت حب تت ق ي مة rapidminer و معتم م R تتب م

45

50

55

60

65

70

75

80

85

90

95

100

S B B C C E N W P H B M

فصن

لم اقة

د

مجموعة البيانات

م تين عند استخدا ألدا ء ا دا رنة خ 10F-CVمقاRm-NB R-NB RM-DT R-DT RM-KNN R-KNN

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

214

VI. :النتائج و التوصيات م تقلللللللت لللللللالم مللللللل إتمتللللللللج Rبعلللللللر سلسللللللل لتميتةقلللللللت لتسلللللللتبي ق لللللللر

معتت للللل و ببلللللةمعطبلللللت ح لللللت حبللللل لالت لللللت مللللل قولعلللللر لتببتقلللللت ولتتعتمللللل مللللل تقبؤاللللللا لسلللللتبةلرهت وت للللل قلللللول لتملالللللت وت لللللربةهت ب لللللبغ بم للللل تلللللقيت اللللللةى مبللللل ملللللل و للللللةوة رةلبلللللل لتمطللللللوة بيولعللللللر وتعلبمللللللت هللللللاا لتلغلللللل بولللللل ستسللللللل علب للللللت

قولعلللللر لتببتقلللللت مللللل لتيلللللرة علللللل لتتعتمللللل ب لللللتً Rapidminer للللل اللللللةى بمتللللللج سلللللل لسلللللللتالرلمتً بأقللللللا Rوم موعلللللل ال بللللللأ ب للللللت ملللللل لتملاللللللت ت قللللللا بتمبلللللل علللللل

لسللللللتبةلر لتببتقللللللت عملبلللللل لتمسللللللتالرت والت لللللل لتمبتللللللرىه علللللللتسلللللل GUIول للللللت للللم مثبلللل لتعملبللللت لتتللللل سللللبتت تطببي للللت عللللل لتببتقللللت تت للللت السلللللوف ةسللللومل إ

ملللللل عللللللةال تحللللللابةل ولقتةلحللللللت تحلللللل ي الطللللللأ للللللل لتت للللللمبت لتمعللللللتمص ما للللللوت Rلتتعتمللللل مللللل لت لللللور لتم تلللللوف ف إم تقبللللل تلللللبل قلللللرت إ لللللت ت RapidMinerوت للللل

لتالبللللللتة للللللل تا لللللللب ي غللللللرووبأرلتللللللب تتيتطعللللللت للللللل هلللللللاا لتقيطلللللل ممللللللت ب علللللل لرل وت للللل تبيللللل سلللللتالرت وهر لللللا مللللل لسلللللتالرلت لأالبلللللة لتمى ملللللرعلللللل لأرلتلللللب معتملللللرلً

R مملللللللت لتما لللللللل بتتقسلللللللب تلبلللللللتحثب و لأ ثلللللللة ولللللللعبب و يلللللللت" أسلللللللتطص لتلللللللة ي رل لأ لة مبلللللللللللللللللللللللللللللت لت ربلللللللللللللللللللللللللللللر بعقلللللللللللللللللللللللللللللل ق لللللللللللللللللللللللللللللت و مللللللللللللللللللللللللللللل سلللللللللللللللللللللللللللللبرعت لتالو

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

215

المراجت الكتب

[1]KABACOFF R.2011-R in Action Data Analysis and Graphics

with R. Manning Publications، 472 p.

[2]HAN J. KAMBER M. and PEI J.2011-Data Mining: Concepts

and Techniques. Morgan Kaufmann، Third edition، San Francisco،

744 p.

[3]WITTEN I. H. FRANK E. and HALL M. A. 2011-Data Mining:

Practical Machine Learning Tools and Techniques. Morgan

Kaufmann، Third edition، San Francisco، 664p.

[4]LIU H. and ZHAO Z. A.2012- Spectral Feature Selection for

Data Mining. Chapman & Hall/CRCPress، Virginia Beach، VA،

219p.

[5]LIU H. and MODTODA H.2008-Computational Methods of

Feature Selection. Chapman & Hall، BocaRaton، FL، 440p.

[6]TAN P.N. STEINBACH M. and KUMAR V.2006-Introduction

to Data Mining. Pearson Addison Wesley، Boston، 769 p.

[7]WU X. KUMAR V.2009 -The Top Ten Algorithms in Data

Mining Chapman and Hall/CRC Data Mining and Knowledge

Discovery Series، 232 p.

المقاالت [8] ABBOT D. W. MATKOVSKY I. P. ELDER IV J. F.1998 An

Evaluation of High-end Data Mining Tools for Fraud Detection،

IEEE International Conference on Systems، Man، and Cybernetics،

San Diego، CA، pp. 12-14.

[9]AL-RADAIDEH Q. 2008 the Impact of Classification Evaluation

Methods on Rough Sets Based Classifiers، the 2008 International

Arab Conference on Information Technology

[10]AL-RADAIDEH Q. AL-SHAWAKFA E. AL-NAJJAR M. I.

2006 Mining Student Data Using Decision Trees، the 2006

International Arab Conference on Information Technology.

[11]CAREY B. MARJANIEMI C. SAUTTER D. MARJANIEMI

C. 1999 A Methodology for Evaluating and Selecting Data Mining

(Data Miningكأداتين للتنقيب في المعطيات ) Rapidminerو Rدراسة مقارنة بين

216

Software، Proceedings of the Thirty-second Annual Hawaii

International Conference on System Sciences-Volume 6.

[12]Data Mining News، Volume 1، No. 18، May 11، 1998.

[13]GIRAUD-CARRIER C. and POVEL O. 2003 Characterizing

Data Mining software، Intelligent Data Analysis، v.7 n.3، p.181-

192.

[14]GOEBEL M. GRUENWALD L.1999 A survey of data mining

and knowledge discovery software tools، ACM SIGKDD

Explorations Newsletter، v.1 n.1، and p.20-33.

[15]HEN L.E. and LEE S.P.2008 Performance analysis of data

mining tools cumulating with a proposed data mining middleware،

Journal of Computer Science.

[16]HEB A. DOPICHAJ P. MAAB C. 2008 Multi-value

Classification of Very Short Texts، the 31st annual German

conference on Advances in Artificial Intelligence، pp. 70-77.

[17]IHAKA R.1998 A Brief History R: Past and Future History،

the 30th Symposium on the Interface. S. Weisberg Ed.، pp. 392-396.

[18]LI Y. BONTCHEVA K. 2008 dapting Support Vector

Machines for F-term-based Classification of Patents، Journal ACM

Transactions on Asian Language Information Processing، Volume 7

Issue 2.

[19]PATHAK A.N. SEHGAL M. CHRISTOPHER D. 2011 A

Study on Selective Data Mining Algorithms، IJCSI International

Journal of Computer Science Issues، Vol. 8، Issue 2.

[20]ZHOU S. LING T.W. GUAN J. HU J. ZHOU A. 2003 Fast

Text Classification: A Training-Corpus Pruning Based Approach،

Eighth International Conference on Database Systems for Advanced

Applications، pp.127.

الكتب االلكترونية

[21]YANCHANG Z.2013-R Reference Card for Data Mining: [22]AKTHAR F. and HAHNE C.2012-RapidMiner 5-Operator

Reference.

[23]RAPID-I 2002 Fact Sheet -RapidMiner and RapidAnalytics

د. محسن حسين هزار هرموش 4112 - 11العدد – 63المجلد –مجلة جامعة البعث

217

[24]RAPID-I 2002 How to Extend RapidMiner 5، [25]R Core Team 2012- Guide to importing and exporting data to

and from R، ver2.15.2

[26]R Core Team 2012- guide to extending R، ver2.15.2،

المواقت االلكترونية [27]“KDNuggets” kdnuggets.com Retrieved 15، Aug، 2014.

[28]"RapidMiner". Rapid-i. Retrieved 15، Aug، 2014.

[29]“RDataMinng” rdatamining.com/resources/tools Retrieved 15،

Aug، 2014.

[30]”Rserver - Binary R server”. rforge.net/Rserve/ Retrieved 15،

Aug، 2014.

[31]”UC Irvine Machine Learning Repository”

http://archive.ics.uci.edu/ml/ Retrieved 15، Aug، 2014.

[32]“Wikipedia.org”، Retrieved 15، Aug، 2014.