30
ری ب ی سا ت ی من ا وذ ف ن ص ی خ ش ترای ب! ن ی س ری ما گب اذ ی های اج! و روشر خ ت سی ا ها ی روش سرر ب دمه ق م( ! ن ی س ری ما گب اذ ی ی ار سرر ب8 ک ! ی ج ی ا ت? ن ه ال ق م! ن ی اML ( اوی ی ذاذه ک ا ه و روش) DM ی را ر ب ی ا س ت ی ن می ا ا رذه بی کار را ب) های روش. یذهد م ه ارایML / DM رج ذاذه ش ری ب ی سا وذ ف ن ی ب ا رذی لات ک ش مرای ب روش ر ه ذ ارر ب ن! کار ی د نT چ! ن ی نT خ م ه ها و اوت ق ت م ای مه ت ن ور گ ل ی ا گ د نT خ ن. د وی ش ی مML / DM ای اره ت ع م ری ش8 ک ه ی ال ق م! ن ی رذ و ا ب گ ی مار ر ق ت خ ی ورذ م ا ه ای ه ای روش ر ب های س ت ا ق مML / DM ای یه گ ر ب ه و ه ی ت س ت اذه ق ت س رای ا ب ا ه ن! روش ی ر ب ه بها ذر ه ت ص و ت وعهای ار م ج م و. د ت ک ی م م ه را ق! نt ل ا حرای ب ری ب ی ل سا ک ش م ارا ه، و ذاذها ه امه ری بها، که ت سا، ره ب و ی_ من کا ار تz ظ ف حا مرای ب که ت س ی ا ب دها ت نt را ق وریها وt ن! ا ف وعهای ار م ج م ری ب ی سا ت ی من ا که و ت س ی ت ن ت می ا مها ت س سی ی ار ر ب ی ا ی س ت ن ت می ا مها ت س سی د. دهای ی س ح را ط ب ی ر خ ی ا ر و ی ب ی غ ن، ار ح م ر ب ع ی س ر سب ه، ذ ل م ح ی ت نt ار ا ر ق رما ب، ش تt واره ا ت ذ8 ک ل، ی ق دا وارذ ذارای ح م! ن ی ا ار8 ک ر ی ه د. دهای ل س ت ک ش ت)! ان ی ر مب( ی ت ن ت می ا مها ت س سی( وذ ف ن ص ی خ ش ت م ت س سی8 ک روش و ی ب وIDS . ت س ا) Ids ها ر و ب ی غ نار، ر ک ی، ار ح م ر ب عرذ ب ار ی ک ب ا اس ت س ، و ن! ی ت ع ن، ف ش ک ه ی( د کن ی م8 مک ک ی بعا لا طی ا مها ت س سی ب یر خ ی۱ و)! مان ار س رج! ار ا ح ار لات م ح( ی ح ار های ح وذ ف ن ل م ا ی س ت ن ت می ا ها ص ق ن.) د. وی ش ی م)! مان ل سار ح ذا ار لات م ح( ی ل حی ذا ها وذ ف ن,)ور ح م ا ض م ا ات ی اوق ها گ( اذه ق ت سو ا ش ر ب ی ت ن ت م- اذه ق ت س وا ش وذ ذارذ: ج و ار ب ی ما حی ذر ر ب ی ل سا ت حل ی ه و ی ر خ ی ی صل وع ا ت سه ذه ار ا ق ت س ا ا ده ی هس ت چ ا ت س لات م ح ص ی خ ش ت رای ب اذه ق ت س و ا ش ر ب ی ت ن ت م ای ه8 ک ت کن ی د. ری ب ی ه اری و ی ه ا ر ی ب ی ت ن ت م اری ی ه ا ی

مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

بررسی روش های استخراج و روش های یادگیری ماشین برای تشخیص نفوذ ام��نیتسایبری

مقدمه

( ب��رایDM( و روش ه��ای داده ک��اوی )MLاین مقال��ه نت��ایج ی��ک بررس��ی از ی��ادگیری ماش��ین ) ها و همچنین چندین کاربرد از هرML / DMکاربردهای امنیت سایبری را ارایه می دهد. روش های

روش برای مشکالت ردیابی نفوذ سایبری ش��رح داده می ش��وند. پیچی��دگی الگوریتم ه��ای متف��اوتML / DMها مورد بحث قرار می گیرد و این مقاله یک سری معیارهای مقایسه ای برای روش های ML / DMو مجموعه ای از توصیه ها در بهترین روش ها برای استفاده بسته به ویژگی های مشکل

سایبری برای حل آن فراهم می کند. امنیت سایبری مجموعه ای از فن آوری ها و فرآیندهایی اس��ت ک��ه ب��رای مح��افظت از کامپیوتره��ا، شبکه ها، برنامه ها، و داده ها از حمله، دسترس��ی غیرمج��از، تغی��یر و ی��ا تخ��ریب ط��راحی ش��ده اند. سیستم های امنیتی سایبری از سیستم های امنیتی شبکه و سیس��تم های امنی��تی )میزب��ان( تش��کیل شده اند. هر یک از این موارد دارای حداقل، یک دیواره آتش، نرم افزار آنتی ویروس و یک سیستم

به کشف، تعیین، و شناسایی کاربرد غیر مجاز، تکرار، تغییر و ها Ids( است. IDSتشخیص نفوذ ) (. نقض ه��ای امنی��تی ش��امل نفوذه��ای خ��ارجی۱تخ��ریب سیس��تم های اطالع��اتی کم��ک می کنن��د )

)حمالت از خارج از سازمان( و نفوذهای داخلی )حمالت از داخل سازمان( می شوند. سه نوع اصلی تجزی��ه و تحلی��ل س��ایبری در حم��ایت از وج��ود دارد: سواس��تفاده - مبت��نی ب��ر س��و استفاده )گاهی اوقات امضا محور(, ناهنجاری مبتنی بر ناهنجاری و هیبرید. تکنیک های مبت��نی ب��ر س�و اس�تفاده ب��رای تش�خیص حمالت شناخته ش�ده ب�ا اس�تفاده از امض�اهای این حمالت ط�راحی شده اند. آن ها برای تشخیص نوع شناخته ش�ده حمالت ب��دون ایج��اد تع�داد زی��ادی هش��دار اش�تباه موثر هستند. آن ها نیازمند به روز رسانی مک��رر دس�تی پایگ�اه داده ب��ا ق��وانین و امض�اها هس��تند.

تکنیک های مبتنی بر سو استفاده نمی توانند حمالت جدید )صفر( را تشخیص دهند. تکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را م��دل می کنن��د و ناهنجاری ه��ا را ب��ه عنوان انحراف از رفتار نرمال شناس��ایی می کنن��د. آن ه��ا ب��ه دلی��ل توان��ایی آن ه��ا ب��رای تش��خیص حمالت صفر روز جذاب هستند. مزیت دیگر این است که پروفایل فعالیت ه��ای نورم��ال ب��رای ه��ر سیستم، کاربرد، یا شبکه سفارشی شده اند در نتیجه برای مهاجمان دشوار می سازند تا بدانند که کدام فعالیت ها می توانند ناشناخته بمانند. عالوه بر این، داده های مربوط به تکنیک ه��ای مبت��نی ب��ر ناهنجاری )حمالت جدید( را میتوان برای تعریف امضاهای س�و اس�تفاده از ردی��اب اس��تفاده ک��رد.نقطه ضعف اصلی روش های مبتنی بر ناهنجاری، پتانس��یل ب��رای نرخ ه��ای هش��دار نادرس��ت ب��اال )

farsاست، چرا که رفتارهای سیستم که قبالً نادیده انگاشته شده اند ممکن اس��ت ب��ه عن��وان بی ) قاعدگی ها طبقه بندی شوند.

Page 2: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

تکنیک های ترکیبی، استفاده نادرست و غیر عادی را ترکیب می کنند. آن ه��ا ب��رای اف��زایش م��یزان ( ب��رای حمالت ناش��ناخته ب��ه ک��ارFPتشخیص نفوذهای شناخته ش��ده و ک��اهش ن��رخ ک��اذب مثبت )

گرفته می شوند. بررسی عمی��ق ادبی��ات بس��یاری از روش ه��ای شناس��ایی بی قاع��دگی خ��الص را ،DM و MLکش��ف نک��رد؛ اک��ثر روش ه��ا واقع��اً ترکی��بی بودن��د. بن��ابراین، در توص��یف روش ه��ای

روش های تشخیص غیر عادی و روش های ترکیبی با هم توصیف می شوند. بخش دیگر بر مبنای آن است که آن ها به دنبال رفتار ناخواسته هستند: مبتنی بر شبکه یا میزبان. یک شبکه عصبی مبتنی بر شبکه، نفوذها را از طریق کنترل ترافیک از طریق دس��تگاه های ش��بکه

مبتنی بر میزبان فرآیند و فعالیت های مرتبط با محیط نرم اف��زاری مرتب��طIDSشناسایی می کند. با میزبان خاص را بررسی می کند.

/ ML برای امنیت سایبری، با تاکید بر روش های DM و MLاین مقاله تحقیقی بر روی تکنیک های DMو توصیفات آن ها تمرکز دارد. بسیاری از مقاالت که این روش ها را توصیف می کنند، از جمله

چندین بررسی، منتشر شده اند. در مقابل نظرات قبلی، تمرکز مقاله ما بر روی انتشارات اس��تGoogleکه معیارهای مشخصی را برآورده می کنند. جستجوهای Scholarبا اس��تفاده از "ی��ادگیری

ماشین" و "سایبر"، و استفاده از "استخراج داده ها" و "س��ایبر" انج��ام ش��د. تاکی��د وی��ژه ب��ر روی مقاالت بسیار نقل قول شده قرار داده شد، زیرا اینها تکنیک های مع��روف را توص��یف می کنن��د. ب��ا این حال، مشخص شد ک��ه این تاکی��د ممکن اس��ت تکنیک ه��ای جدی��د و نوظه��ور را نادی��ده بگ��یرد، بنابراین برخی از این مقاالت نیز انتخاب شدند. به طور کلی، مقاالت به گونه ای انتخاب شدند که

ها بعداً حداقل یک و ترجیحاً چند مقاله نماینده داشته باشند.ML / DMهر یک از دسته های MLاین مقاله برای خوانندگانی مناس�ب اس�ت ک�ه می خواهن��د تحقی��ق را در زمین��ه / DMب��رای

تشخیص نفوذ سایبری ش��روع کنن��د. ب��ه این ت��رتیب، تاکی��د زی��ادی ب��ر روی ی��ک توص��یف کام��ل از ها ارایهDM و ML ها قرار داده می شود و مراجع برای هر یک از روش های ML / DMروش های

می شوند. ب��رخی از نمونه ه��ا ب��ه این ص��ورت ارای��ه می ش��وند ک��ه چگون��ه این روش ه��ا در ام��نیتسایبری به کار گرفته شدند.

وBhuyanاین مقاله تمام تکنیک های مختلف تشخیص ناهنجاری شبکه را توص��یف نمی کن��د، مانن��د اس��تفاده می کن��د. ب��ا این ح��ال، عالوه ب��رDM و MLهمک��اران ؛ در ع��وض فق��ط ب��ر تکنیک ه��ای

تشخیص غیر عادی، روش های ترکیبی و ترکیبی نشان داده می شود. ش��رح روش ه��ای موج��ود دراین تحقیق در عمق بیشتری نسبت به وجود دارد.

را برای طبقه بندی ترافیک اینترنت توصیف می کنن��د. تکنیک ه��ایMLنگوین و همکاران تکنیک های توضیح داده شده در آن به شماره پورت معروف تکیه نمی کنند بلکه بر خصوصیات ترافیک آم��اری

را پوش��ش می ده��د،۲۰۰۲ ت��ا ۲۰۰۲تکیه دارند. نظرسنجی آن ها تنها مقاالت منتشر شده در سال و همک��اران ، این مقال��هNguyenک��ه در آن بررس��ی م��ا ش��امل مقاله ه��ای اخ��یر اس��ت. ب��رخالف

( ک��ارIPروش هایی را ارایه می دهد که بر روی هر نوع داده های سایبری، نه تنها پروتکل این��ترنت )می کنند.

و همکاران بر تکنیک های نفوذ مبتنی بر ناهنجاری تمرکز دارند. نویسندگان روش هایTeodoroیک آماری، مبتنی بر دانش، و روش های یادگیری ماشین را ارایه می دهند، اما مطالعه آن ها مجموع��ه کاملی از روش های یادگیری ماشین را ارایه نمی کند. در مقابل، این مقاله ن��ه تنه��ا تش��خیص غ��یر عادی بلکه روش های مبتنی بر امضا را توصیف می کند. مقاله ما همچنین شامل روش ها برای ب��ه

Page 3: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

رسمیت شناختن نوع حمله )سو استفاده( و برای تشخیص حمله )نفوذ( اس��ت. در نه��ایت، مقال��هMLما لیست کامل و آخرین لیست از روش های / DMرا ارائه می دهد که برای امنیت س��ایبری

به کار گرفته می شوند.Sperotto( و همکاران روی داده شبکه NetFlowمتمرک��ز هس��تند و اش��اره می کنن��د ک��ه پ��ردازش )

بسته ممکن است در سرعت های موج ناشی از مقدار ترافیک امکان پذیر نباشد. آن ه��ا مجموع��ه وسیعی از روش ها را برای تشخیص ترافیک غیرع�ادی )حمل��ه احتم��الی( و س��و اس�تفاده توص��یف می کنند. با این حال، برخالف مقاله ما، آن ه��ا توض��یحات جزیی��ات ف��نی روش ه��ای منف��رد را ذک��ر

نمی کنند. وو و همکاران بر روی روش های محاس�باتی محاس�باتی و کاربرده��ای آن ه�ا ب�رای تش�خیص نف�وذ

ه��ا(، سیس��تم های ف��ازی،ANNتمرکز دارن��د. روش ه��ایی از قبی��ل ش��بکه های عص��بی مص��نوعی ) محاسبات تکاملی، سیستم های ایمنی مصنوعی و هوش ازدحام به تفص��یل ش��رح داده می ش��وند.

MLاز آنجا که تنها روش های هوش محاسباتی توص�یف می ش�وند، روش ه�ای اص�لی / DMمث�ل خوشه بندی، درخت های تصمیم گیری و استخراج قاعده )که این آدرس های مقاله( گنجان��ده نش��ده

اند. این مقاله بر تشخیص نفوذ سایبری بر روی شبکه های کابلی تمرکز دارد. با یک شبکه سیمی, یک دشمن باید از چندین الیه دفاعی در فایروالها و سیستم های عامل عبور کند, یا دسترسی ف��یزیکی به شبکه را به دست آورد. با این حال, ش��بکه بی س��یم می توان��د در ه��ر گ��ره ه��دف ق��رار گ��یرد, بنابراین به طور طبیعی نسبت به حمالت مخرب نس��بت ب��ه ش��بکه سیم کش��ی آس��یب پذیر اس��ت. روش های ارایه شده در این مقاله به طور کامل برای نفوذ و سو استفاده از مشکالت تشخیص در شبکه های کابلی و بی سیم قابل اجرا هستند. خواننده ای که خواه��ان دی��دگاهی اس��ت ک��ه تنه��ا ب��ر

. zhang et alحفاظت از شبکه های بی سیم تمرکز دارد, به مقاالت از قبیل بر روی مراحل اصلی در میلی لیتر۲باقی این مقاله به صورت زیر سازماندهی شده است: بخش

پیچیدگی محاسبات روش های مختلف را۵ تمرکز می کند. بخش سوم بخش چهارم بخش dmو مورد بحث قرار می دهد. بخش ششم مشاهدات و توصیه هایی را شرح می دهد.

در نهایت، بخش هفتم نتایج را ارایه می دهد.

2بخش

DM و ML گام های اصلی در،MLسردرگمی بسیاری در مورد اص��طالحات DM( و کش��ف دانش در پایگ��اه داده ،KDDوج��ود )

یک فرآیند کامل است که با استخراج اطالعات مفی��د، قبالً ناش��ناخته )یع��نی دانش( ازKDDدارد. یک قدم خاص در این فرآیند است - کاربرد الگوریتم های خ��اص ب��رایDMداده ها سر و کار دارد.

)آماده س��ازی داده ه��ا، انتخ��اب داده،KDDاستخراج الگوها از داده ها. گام ه��ای اض��افی در فرآین��د ( تض��مین می کن��د ک��هDMتمیز کردن داده ها، تلفیق دانش قبلی مناسب و تفسیر درست از نت��ایج

دانش مفید از داده های موجود استخراج می شود. ب��ا این ح��ال، انتش��ارات زی��ادی وج��ود دارد ]ب��هcrispعنوان مثال، فرآین��د اس��تاندارد ص��نعت ک��راس ب��رای اس��تخراج داده ه��ا ) - DMو ش��رکت )

را فرا می خوانند. در این مقاله، بدنبال فیاض و همکاران ،KDDکنندگان در صنعت که کل فرآیند

Page 4: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

DM برای توصیف یک گام خاص در KDDاستفاده می شود که با کاربرد الگوریتمهای خ��اص ب��رای استخراج الگوها از داده ها سر و کار دارد.

ه��ا وج��ود دارد. این دو عب��ارت عموم��اً ب��ه این دلی��ل گیجDM و MLهم پوشانی ق��ابل توجهی بین می شوند که اغلب روش های یکسانی را بکار می گیرند و ب��ه ط��ور ق��ابل توجهی ب��ا هم همپوش��انی

به عنوان " رشته ای از مطالعه که به کامپیوتره��ا توان��ایی ی��ادگیری ب��دون برن��امه ریزیMLدارند. صریح را می دهد، بر طبقه بندی و پیش بی��نی براس��اس ویژگی ه��ای شناخته ش��ده قبلی از داده ه��ای

به یک هدف )فرمول مس��اله( از دامن��ه نی��از دارن��د )ب��هMLآموزشی تمرکز می کند. الگوریتمهای بر روی کشف ویژگی های ناشناخته قبلی در داده هاDMعنوان مثال، متغیر وابسته به پیش بینی(.

تمرکز دارد. آن به یک هدف خاص از حوزه نیاز ندارد، بلکه به جای آن بر پیدا کردن دانش جدید وجالب تمرکز دارد.

)اولین۱۹۸۰ دید. عبارت داده کاوی در اواخر دهه DM قدیمی تر the را به عنوان MLمی توان این م��ورد۱۹۶۰( معرفی شد، در حالی که اصطالح یادگیری ماش��ین از ده��ه ۱۹۸۹ در KDDکنفرانس

( نس��بت ب��هDMاستفاده بوده است. در حال حاضر، خواهر برادر کوچک تر )یعنی استفاده از واژه ک��ارMLیکی دیگر محبوب است، که ممکن است دلیل این باشد که چرا برخی محققان ب��ه ج��ای

برچسب می زنن��د. این می توان��د دلی��ل آن باش��د ک��ه هنگ��امی ک��ه اطالع��اتDMخود را به عنوان "یادگیری ماشین" و "استخراج داده ه��ا" و "اس��تخراج داده ه��ا" در گوگ��ل انج��ام ش��د، اولین نت��ایج بازیابی بازیابی ش�ده و دومین نت�ایج بازی��ابی بازی��ابی ش�د. روش ه��ای م��ورد اس�تفاده در مق�االت بازیابی شده توسط پرس و جوها در مقاالت بازیابی شده با م��وج دوم متف�اوت نبودن�د. بن�ابراین،

می نامیم.ML / DMچون این مقاله بر روی روش ها تمرکز دارد، ما این روش ها را روش های معم��والً ش��امل دو مرحل��ه اس��ت: آم��وزش و آزم��ایش. اغلب مراح��ل زی��ر انج��امMLیک رویکرد

می شوند:شناسایی ویژگی های کالس )ویژگی ها( و کالس ها از داده های آموزشی.•

تعیین یک زیرمجموعه از ویژگی های الزم برای طبقه بندی )یعنی کاهش ابعاد(.•

با استفاده از داده های آموزشی مدل را یاد بگیرید.•

برای طبقه بندی داده های ناشناخته از مدل آموزش دیده استفاده کنید.•

در م��ورد س��و اس��تفاده از تش��خیص، در مرحل��ه آم��وزش ه��ر کالس س��و اس��تفاده ب��ا اس��تفاده از نمونه های مناسب از مجموعه آموزشی یاد گرفته می شود. در مرحله آزمایش، داده ه��ای جدی��د از طریق مدل اجرا می شوند و نمونه به این صورت دسته بندی می شود که آیا آن متعل��ق ب��ه یکی از کالس های سو استفاده است. اگر این الگو متعلق به هیچ کدام از کالس های سو مص��رف نباش��د،

به صورت عادی طبقه بندی می شود. در مورد تش��خیص ناهنج��اری، الگ��وی ت��رافیکی معم��ول در مرحل��ه آم��وزش تعری��ف می ش��ود. در مرحله آزمایش، مدل آموخته شده به داده های جدید اعمال می شود و هر نمونه در مجموعه تست

به صورت عادی یا غیر عادی طبقه بندی می شود.

Page 5: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

باید سه مرحله وجود داشته باشد، نه دو مرحل��ه: آم��وزش،MLدر حقیقت، برای اغلب روش های ه�ا اغلب دارای پارامتره�ایی مانن�د تع�داد الیه ه��ا وDM و MLاعتبار سنجی و آزمایش. روش های

هستند. پس از اتمام دوره آموزشی، معموالً چندین مدل وجود دارند )به عن��وانANNنودها برای ها( موجود هستند. برای تصمیم گیری که کدام ی��ک بای��د از آن اس��تفاده کن��د و تخمینANNمثال،

خوبی از خطا در یک مجموعه تست داشته باشد، باید یک مجموعه داده جداگانه س��وم، مجموع��ه داده های اعتبار سنجی وجود داشته باشد. مدلی ک��ه به��ترین عملک��رد را ب��ر روی داده ه��ای اعتب��ار سنجی انجام می دهد باید م��دل استفاده ش��ده باش��د و نبای��د براس��اس دقت آن ب��ر روی مجموع��ه داده ه��ای تس�ت تنظیم ش�ود. در غ�یر این ص�ورت، دقت گزارش ش�ده خ��وش بین اس�ت و ممکن است دقتی را منعکس نکند که در یک مجموعه تست دیگر مشابه ام��ا کمی متف��اوت از مجموع��ه

تست موجود باشد. وج��ود دارد: تحت نظ��ارت, نیم��ه نظ��ارت و نظ��ارت ش��ده. درdmسه نوع عم��ده از رویکرده��ا /

مسایل یادگیری بدون نظارت, وظیفه اصلی یافتن الگوه��ا, س��اختارها و دانش در داده ه��ای ب��دون نظارت است. زمانی که بخش��ی از داده ه�ا در ط�ول کس��ب داده ی��ا توس�ط کارشناس�ان انس��ان برچسب گ�ذاری می ش�ود, مش��کل ب��ه عن��وان ی��ادگیری نیم��ه نظ�ارت نامی��ده می ش�ود. اف��زودن داده های برچسب دار به حل مساله کمک زی��ادی می کن��د. اگ��ر داده ه��ا ب��ه ط��ور کام��ل برچس��ب گذاری شوند, مشکل آموزش نظارت می شود و معموالً وظیفه یافتن یک تابع یا م��دلی اس��ت ک��ه داده ها را توضیح می دهد. روش هایی همچون برازش منحنی برای مدل سازی داده ه��ا ب��ه مش��کل زیربن��ایی اس��تفاده می ش��وند. ب��ه ط��ور کلی این برچس��ب متغ��یر تج��اری ی��ا مش��کل اس��ت ک��ه

متخصصان فرض می کنند نسبت به داده های جمع آوری شده دارد. زمانی که ی��ک م��دل طبقه بن��دی ب��ا اس��تفاده از داده ه��ای آموزش��ی و اعتب��ار س��نجی توس��عه داده می شود، مدل می تواند ذخیره شود تا بتواند بعداً یا در یک سیستم متف��اوت اس��تفاده ش��ود. م��دل

( توسعه یافته و توسط گ��روه اس��تخراج داده ب��رای کم��ک ب��ه ب��هPMMLپیشگویانه مدل توصیفی ) اس��ت و در ح��ال حاض��ر ازXMLاشتراک گذاری مدل پیش بینی پیشنهاد شده است. آن مبتنی ب��ر

forwardرگرسیون منطقی پشتیبانی می کند و شبکه عصبی (NN)( را تغذیه می کند. نسخه اخ��یر بردار پشتیبان )Machine( پشتیبانی می کند و k - NN - نزدیک ترین همسایه )k بیز، Naive( از ۲.۲

SVM را پش��تیبانی می کن��د. این م��دل چن��دین )metadata DMنظ��یر ی��ک فرهن��گ لغت داده ه��ا را پشتیبانی می کن��د )ب��ه عن��وان مث��ال، گسس��ته، ب��ولی، ع��ددی(، نرم��ال س�ازی، ن��ام م��دل، الگ��وی

Weka ه��ای داده ک��اوی مانن��د platformsمعدن کاری، عملکرد برون هشته، و خروجی. ب��رخی از ، R و ، RapidMiner از مدل های PMML.پشتیبانی می کنند

crispمدل - DM ( معموالً فازه ای و پارادایم ها را توس��ط متخصص��ان۱ نشان می دهد )شکل (۹) DM:برای حل مشکالت نشان می دهد. این مدل از شش فاز زیر تشکیل شده است به شکل الزامات پروژه.DMدرک کسب وکار: تعریف مشکل •

درک داده ها: جمع آوری داده ها و بررسی. •

آماده سازی داده: تمام جنبه ه��ای آماده س��ازی داده ه��ا ب��رای رس��یدن ب��ه مجموع��ه داده ه��ا•نهایی.

Page 6: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

و بهینه سازی پارامترها برای ب��رازش به��ترینML و DMمدل سازی: استفاده از روش های •مدل.

ارزیابی: ارزیابی روش با معیارهای مناسب برای تایید اهداف کسب وکار.•

از ارس��ال گ��زارش ب��ه اج��رای کام��ل مجموع��ه داده ه��ا و چ��ارچوبVariesاس��تقرار: • مدل سازی. معموالً، تحلیل گر داده ها، فازها را تا زمان استقرار هدایت می کن��د، در ح��الی

که مشتری مرحله آماده سازی را انجام می دهد.

DM - DMنمودار فرآیند

MLچندین معیار طبقه بندی برای روش های / DMوجود دارد. معیارهای مشخصی توس��ط دو ی��ا حتی س�ه ن��ام دیگ�ر خوان�ده می ش�وند. در بخش چه�ارم، مق�االت ب�ا ن�ام متری��ک م��ورد اس�تفاده نویسندگان مقاالت مربوطه توصیف می شوند. برای درک این بخش آس��ان تر اس��ت، متریک ه��ا ب��ا نام های مختلف شان بعدی توضیح داده می شوند. برای یک مساله طبقه بندی دوتایی، متریک ه��ا از

را ببینید(.۱ماتریس اغتشاش محاسبه می شوند )جدول

Page 7: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

: ماتریس آشفتگی۱جدول شماره

FARدر مسایل طبقه بندی، یک موازنه بین حساسیت و (۱ - Specificity)وجود دارد. این موازن��ه و حساس��یتx از مح��ور ROC نش��ان داده می ش��ود. ROCتجاری توسط منحنی عملیاتی گیرنده )

است. از آنجا که آستانه برای طبقه بندی تغییر کرده است، نقط��ه متف��اوتی در م��وردyروی محور مختلف و حساسیت مختلف انتخاب شده است. در حساسیت باالتر منجر بهFARجمهوری چین با

ک��ه ی��ک طبقه بن��دی به��تر راonحساسیت باالتر و پایین پایین در حساسیت کم تر می ش��ود. نقط��ه نمی تواند ب��االتر از تع��داد معی��نی باش��د، و اینFARفراهم می کند وابسته به کاربرد است. اغلب،

چگونگی انتخاب طبقه بند نهایی است. ب��رای ی��ک مس��اله چن�د کالس�ی )طبقه بن��دی ب��ه بیش از دو کالس(، معم��والً معیاره��ای زی��ر م�ورد

استفاده قرار می گیرند: به درستی طبقه بندی شد، همه نمونه ها.exemplarsدقت کلی: •

از کالس داده شده ب��ه درس��تی طبقه بن��دی ش��ده اند، هم��هexemplarsنرخ تشخیص کالس: •نمونه هایی از یک کالس داده شده.

از کالس داده ش��ده ب��ه اش��تباه طبقه بندی ش��ده،exemplars کالس: FPنرخ کالس یا میزان •همه نمونه هایی که از یک کالس داده نشده اند.

هر کالس نیز امک��ان پ��ذیر اس��ت، ام��ا در مق��االت م��ورد بررس��ی و توض��یحNPV و PPVمحاسبه ، این معیارها مورد استفاده قرار نگرفتند.۴داده شده در بخش

دونوعمعیاربرایروش هایب������دون نظ�������ارتوجوددارد: داخلیوخ������ارجی. معیارهای������داخلیبرروی داده هامورداس�������������������������������تفادهقرارمی گیرند, وبرچس�������������������������������ب هایکالس )چونآن هاتوسطالگوریتمخوشه بندیشناختهمی ش���������������وند( برایمحاس���������������بهآنمعیارهامورد اس���������تفادهقرارنمی گیرند. معیارهاییمانندفاصلهبینخوش���������ه )فاصلهبیندوخوش���������همختلف, می تواندبینفاصلهمیانگروهیآن هاباشد(,فاصلهبینخوشه ای )فاصلهبیناعضایخوشهمشابه( وشاخص��دان

)خوشه هایمتراکموجداازهم( اغلبمورد استفادهقرار می گیرند. معیارهای خارجی بر روی یک مجموعه داده فعالیت می کنن��د ک��ه ب��رای آن ه��ا برچس��ب های کالس شناخته شده است. متریک به کار رفت��ه ش��بیه معیاره��ای ی��ادگیری نظ��ارت ش��ده ب��ود. تع��دادی از

از روش ه��ای ب��دون نظ��ارت اس��تفاده می کنن��د، ام��ا معیاره��ای۴مقاالت شرح داده شده در بخش کالس می باشند. این به این معنی است که اگ��ر چ��هFARنهایی ارائه شده، نرخ تشخیص کالس و

Page 8: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

این روش ب��ه روش ب��دون نظ��ارت توس��عه یافته اس��ت، برچس��ب هایی ب��رای داده ه��ای تس��ت دردسترس بودند، بنابراین محاسبه معیارهای طبقه بندی امکان پذیر بود.

3بخش

DM و ML مجموعه های داده امنیتی سایبری برای ها، داده ها بس�یار مهم هس�تند. از آنج��ا ک�ه این تکنیک ه�ا از داده ه�ایDM و MLبرای رویکردهای

موجود یاد می گیرند، الزم است درکی از داده های مورد استفاده آن ها داشته باشیم تا بفهمیم ک��ه اس��تفاده می کنن��د. این بخش ب��هDM و MLچگونه نویس��ندگان مختل��ف از الگوریتم ه��ای مختل��ف

و دیگرcap acket (p)، NetFlow و the MLجزییات انواع مختلفی از داده های استفاده شده توسط داده های شبکه می پردازد. بنابراین، بخش چهارم، که روش ها را به ط��ور دقی��ق توص��یف می کن��د،

،pcapتنها به این موضوع اشاره می کند ک��ه آی��ا ی��ک روش از NetFlowی��ا دیگ��ر داده ه��ای ش�بکه ، استفاده می کند و داده ها را به طور دقیق توصیف نمی کند. بخش ه��ای زی��ر جزئی��ات س��طح پ��ایین

مجموعه داده ها را پوشش می دهند.داده سطح بسته1 -

۱۲۲ IP( هایی که توسط نیروی کار مهندس��ی این��ترنت IETF( از جمل��ه پروتک��ل کن��ترل انتق��ال ،)TCP( پروتکل پیام کنترل اینترنت ،)ICMPو غیره( وجود دارد. برنامه های کاربران در حال اجرای ،

این پروتکل ها، ترافیک شبکه بسته اینترنت را ایجاد می کنن��د. بس��ته های ش��بکه دریافت ش��ده و در سطح مشترک فیزیکی )به عنوان مثال، درگ�اه ات��رنت( ک�امپیوتر را میت�وان ب��ا ی�ک راب�ط برنام�ه

)به ت��رتیب ورژن ه��ای وین��دوز وWinPCap و libpcap ثبت کرد. pcap( به نام APIکاربردی خاص ) analyzersویندوز به ترتیب( کتابخانه های نرم افزاری را برای بسیاری از ابزارهای شبکه ای ش��امل

ها ش��بکه و ژنراتوره��ای ترافی��ک تش��کیل می دهن��د.ids بسته، مانیتورهای شبکه، sniffersپروتکل، tcpdump اس�تفاده می کنن��د عبارتن�د از: pcapتعداد کمی از برنامه های محب��وب ک��ه از داده ه�ای ،

Wireshark ، Snort و ، Nmap. )الی��هip اس��ت ک��ه از ipدر الیه فیزیکی شبکه, ی��ک چ��ارچوب ات��رنت این محمول��ه ح��اوی بس��ته

آن ممکن اس��ت ح��اوی داده ه��ایی و ی��اip آن تشکیل یافته است. ب��ار ipانتقال, الیه انتقال( و بار (, پروتک��ل انتق��ال مرج��ع )smb(, پروتکل انتقال پی��ام )nfsسایر پروتکل های سطح باالتر محصور )

http( پروتکل اداره پست / خروجی ,)pop ,)telnet .و پروتکل انتقال فایل کوچک باشد , ثبت می شود، ویژگی های داده ها با توجه به پروتکلیpcapاز آنجا که کل بسته به وسیله یک رابط

،TCP زی��ر مجموعه ه��ایی از ویژگی ه��ایی ک��ه ب��رای ۲که بسته حمل می کند، تغییر می کند. جدول UDP و ICMP به ثبت رسیده اند را نشان می دهد. آدرس های IP در سرآیند IPهس��تند ک��ه در الی��ه

شبکه جابجا می شوند.

Page 9: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

امنیتیdatasets جرثقیل های بسته امنیت سایبری - ۲جدول

NetFlow داده 2- به عنوان ی��ک مشخص��ه مس��یریاب توس��ط سیس��کو ایج��اد ش��د. مس��یریاب ی��اNetFlowدر اصل،

را به هنگام ورود و خروج از فصل مشترک دارد. نسخهIPسوییچ توانایی جمع آوری ترافیک شبکه NetFlow یک جریان شبکه را به عنوان یک رشته تک بعدی از بسته هایی تعری��ف می کن��د۵ سیسکو

،IP منب��ع، پروتک��ل IPکه همان هفت ویژگی بسته را ب��ه اش��تراک می گذارن��د: راب��ط ورود، آدرس شامل س��ه ج��ز اس��ت: ی��کNetFlow. معماری منطقی IPدرگاه منبع، بندر مقصد، و نوع خدمات

NetFlow مرجع، جمع کننده NetFlow ،نس��خه از ۱۰، و یک کنسول تحلیل. در حال حاض��ر NetFlow ب��ه ط��ورNetFlow ش��روع می ش��وند، ۹ مشابه هستند، اما ب��ا نس��خه ۸ تا ۱وجود دارد. نسخه های

Page 10: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

ح��داقل مجموع��هIII مجموعه ویژگی در جدول ۸ تا ۱قابل توجهی متفاوت است. برای نسخه های را برای یک توالی تک بعدی از بسته ها نشان می دهد.NetFlowداده های

(i.e.)یک جریان ،.

بسته امنیت سایبریIII NetFlow Packetجدول

از بس��ته های ش��بکه واقعی هس��تند. اینpreprocessed شامل نس��خه فش��رده و NetFlowداده های

آمار از ویژگی های مشتق شده اند و براساس پارامترهای خاص��ی مانن��د م��دت زمان پنج��ره، تع��داد روی دستگاه تنظیم شده است.NetFlowبسته ها و غیره، تنظیمات

مجموعه های داده عمومی3- (،به طور گسترده۱۸ داده دارپا )setsدارپا از سازمان پروژه های تحقیقاتی پیشرفته دفاع )دارپا( و

توسطThe ۱۹۹۸در آزمایش ها مورد استفاده قرار می گیرند و مکرراً در نشریات نقل می شوند. MITگروه فن آوری و فن آوری س��ایبری موسس��ه فن آوری ماساچوس��ت ) / LLایج��اد ش��د. ی��ک )

، داده های الگTCP / IP، Solarisشبکه شبیه سازی ساخته شد و داده ها براساس داده های شبکه تهیه ش��دند. ب��ه ط��ور م��وثر، مجموع��هroot برای کاربر و Solaris پرونده فایل dumpsفایل پایه، و

هفت��ه۹( تش��کیل ش��د. داده ه��ا ب��رای OSداده های مونتاژ شده از داده های شبکه و سیستم عامل ) که به عنوان مجموعه تست تع��یین۲ نفر اول به عنوان مجموعه آموزشی و ۲جمع آوری شدند، و

شد. شبیه سازی حمله در طی دوره آموزشی و آزمایش ترتیب داده شد.

Page 11: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

نف��ر اول ب��ه۳ هفته جمع آوری شد و ۵ برای مجموع ۱۹۹۹به طور مشابه مجموعه داده های دارپا هفته گذشته تعیین شد. این مجموع��ه۲عنوان یک مجموعه آموزشی و آخرین مجموعه داده ها در

مورد حمله ق��رار گرفتن��د. در ه��ر دو۱۹۹۸داده ها به طور قابل توجهی بیش از مجموعه داده دارپا مجموعه، مجموعه داده ها فرآوری شده و اصالح شدند تا در آزمایش ها مورد استفاده قرار گیرند.

The های TCP و log.ها در یک جریان با ستون های زیادی ترکیب شدند یکی از گس��ترده ترین مجموعه ه��ای داده ای ک��ه ب��ه ط�ور گس��ترده م��ورد اس��تفاده ق��رار می گ��یرد

به چالش کشیده شد. مجموعه داده ها۲۰۱۰مجموعه داده هایی است که برای اولین بار در سال tcpبراساس داده های خانواده دارپا / / ipمی باشد و دارای ویژگی های اساسی ثبت شده توس��ط

pcap.می باشد. ویژگی های اضافی با تحلیل داده ها ب��ا زم�ان و پنجره ه�ای مت�والی بدس�ت آمدن��د مجموعه داده ها دارای سه مولفه - پایه, محت��وا, و ترافی��ک - ایج��اد کلی ویژگی ه��ای کلی هس��تند. این مجموعه داده ها شبیه به داده های تک فرکتال است اما دارای ویژگی های جامع تر و دقیق ت��ری

پیدا کرد. ivاست زیرا حمالت شبیه سازی شده اند. لیست کامل را میتوان در جدول

Page 12: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

TCP ویژگی های اتصال ۴جدول

KDDمجموعه داده ای Tavallaee میلیون سوابق ترافیک عادی و حمله( توس��ط ۲ )با حدود ۱۹۹۹

]تجزیه و تحلیل شده است و برخی محدودیت های ج��دی دارن��د. چن��د۲۱و همکاران و همکارانش[ مشکل ذاتی ذکر ش��دند، از قبی��ل س��نتز ش��بکه و داده ه��ای حمل��ه )پس از نمونه گ��یری از ترافی��ک واقعی( به دلیل نگرانی های حریم خصوصی، تعداد نامشخصی از بس�ته های کاهش یافت�ه ناش�ی از

و همک��اران ن��یز ارزیابی ه��ای آم��اری وTavallaeeسرریز ترافیک و تعاریف نامشخص مورد حمله. ۲۸۹آزمایش ها طبقه بندی خودشان را انجام دادند. آن ها تعداد بسیار زیادی از رکوردهای اض��افی )

در داده ه��ای آزمایش��ی( را گ��زارش کردن��د ک��ه ب��اعث انح��راف۲۵۹نفر در داده ه��ای آموزش��ی و می شوند. به عالوه، در آزمایش ها طبقه بندی گروهی ک��ه انج��ام ش��د، آن ه��ا اش��اره کردن��د ک��ه ب��ا انتخاب تصادفی زیرمجموعه هایی از داده های آموزشی و آزمایش، دقت بسیار زی��اد و غ��یر واقعی

را پیشنهاد کردند که متشکلNSL - KDDرا میتوان به دست آورد. آن ها یک مجموعه داده جدید، کامل است و کاستی های مذکور را تجربه نمی کند.KDDاز سوابق انتخابی مجموعه داده

DARPA U(، کاربر به ریش��ه )DoS چهار نوع حمله را تعریف می کند: انکار سرویس )۱۹۹۸ ۲ R،) Rاز راه دور به محلی ) ۲ Lو وارسی یا پویش. حمله داس، تالشی برای انکار مصرف کنن��دگان ،)

Uبا هدف پردازش یا منابع شبکه است. حمله ۲ R به مهاجم اجازه دسترسی ب��ه root.را می ده��د Rیک حمله ۲ Lبه دسترسی به شبکه محلی به حمله کننده کمک می کند. کاوش ی��ا پ��ویش حمالت

یک نوع حمله جدید را اض��افه ک��رد۱۹۹۹اطالعات را در مورد منابع شبکه جمع آوری می کند. دارپا که در آن مهاجم تالش می کند تا پرونده های وی��ژه ای را ک��ه بای��د ب��ر روی ک��امپیوتر قرب��انی ب��اقی

بماند، کشف کند.

4بخش

DM و روش های MLپیچیدگی محاسباتی می باشد. مفهومDM و MLتاریخچه شامل تعداد محدودی از مقایسه عملکرد برای الگوریتم های

درجه بن��دی پیش بی��نی ش�امل ن��وعی از هموارس�ازی ب��ر روی خ��روجی پیش بینی ه��ا ب��رای ب��رازش مناسب آن ها به توزیع است. بنابراین مقایسه عملکرد مناس��ب بای��د ش��امل کالیبراس��یون و ع��دم

باش��د. ب��اIsotonicکالیبراسیون پیش بینی با یک رویکرد مناسب مانند پالت ه��ای پالت و رگرس��یون ه��ا به��ترین نتیج��ه راANN درخت، جنگل ه��ای تص��ادفی و baggedتوج��ه ب��ه مقایس��ه تج��ربی در ،

بهتر عمل می کنند. این مطالع��ه ها svmمی دهند. پس از کالیبراسیون، درخت های تقویت شده و همچنین گزارش می دهد که کلیت بخشی وجود ندارد، تغییرپذیری قابل توجهی در ط��ول مش��کالت و معیارهای وجود دارد، و عملکرده��ای م�دل همیش�ه ث��ابت نیس��تند. اگرچ��ه ب�رخی از الگوریتم ه��ا

MLپذیرفته شده اند تا عملکرد بهتری نسبت به دیگران داشته باشند، عملکرد الگوریتم های خاص کاربردی و وابسته به پیاده سازی است.

را ف��راهمDM و ML پیچیدگی محاسباتی )یعنی پیچیدگی زمانی( الگوریتم های متفاوت VIIجدول از طریق یک تحقیق گسترده و جستجوی اینترنتی یافت شدند. طبیعت��اً،VIIمی کند. عناصر جدول

هس��تند.ofبرخی از پیچیدگی های زمانی قابل بحث هستند، و براساس تجربه کاربر و مهارت ه��ای

Page 13: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

[ اینVIIاکثر این الگوریتم ه��ا اجراه��ای فض��ای ب��از خ��وبی دارن��د. فرض��یات ارایه ش��ده در ج��دول بس�یارn مشخص�ه توصیف ش�ده و m نمون�ه هس�تند، ک��ه ه�ر ک�دام ب�ا nهستند که داده ها ش�امل

است.mبزرگ تر از

DM و ML - پیچیدگی الگوریتم های VIIجدول

Oبه عن��وان ی��ک قاع�ده سرانگش�تی، الگ�وریتم (n) و O (n log n)زم�ان خطی هس�تند و ب�رای Oرویکرده��ای آنالین قابل اس��تفاده هس��تند. (n پیچی��دگی زم��انی ق��ابل قبول ب��رای بس��یاری از(۲

باشندslower و باالتر از الگوریتم های O (n ^ ۳)روش ها در نظر گرفته می شود. به نظر می رسد و برای روش های برون خط مورد استفاده قرار گیرند.

درصد باالیی از مق��االت پوش��ش داده ش�ده در این مقال�ه تحقیقی رویکرده��ای خ��ود را ب��ه عن��وان روش های غیرمج�ازی ارائ��ه می کنن�د. داده ه��ای پردازش ش�ده ب�رای ک�ل سیس�تم آم�اده و ورودی هستند. زمانی که خط لوله سیستم برای کار به عنوان یک سیستم آنالین ط��راحی شده اس��ت، ی��ا زمانی که فرآیندهای سیستم اطالعات را پخش می کنند، چندین مورد باید مورد توجه قرار گیرن��د، مانند جریان ورودی / خروجی داده و بافر، اجرای روش ه��ای آنالین، و نم��ایش نت��ایج ب��ا اطالع��ات زمان بندی مناسب. چند مطالعه ،سیستم های خود را به ص��ورت آنالین توص��یف ک��رده و داده ه��ای ورودی را در زمان واقعی پردازش می کنند. به طور شگفت انگیز، برخی از این مطالعات ح��تی از

Page 14: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

الگوریتم های کندتر مانند استخراج توالی برای انج��ام تش��خیص نف��وذ اس��تفاده می کنن��د. همچ��نین مسایلی در سطح سیستم نیز وجود دارند که ب��ه عن��وان تقس��یم بندی جریان ه��ای داده ورودی )ب��ه

(، به کارگیری روش های ی��ادگیری و جمع آوری و جمع بن��دی نت��ایجmapreduceعنوان مثال، چارچوب به موازات هم وجود دارند.

به طور کلی، زمانی که مدل های پیش بینی آموزش، یا مشخصه های ترافی��ک ش��بکه ی��ادگیری، ی��ک روش مناس��ب آنالین، ح��داقل س��ه عام��ل عبارتن��د از: پیچی��دگی زم��انی، ق��ابلیت ب��ه روز رس��انی

افزایشی و ظرفیت عمومی سازی.o ارایه شده است. یک روش باید نزدی��ک ب��ه viiپیچیدگی زمانی هر الگوریتم در جدول • (n

log n)باشد تا یک الگوریتم جاری در نظر گرفته شود. با این حال, الگوریتم ه��ای آهس��ته ها با نگه داشتن داده های ورودی و داشتن ی��ک ری��زannنظیر روش های استخراج توالی یا

پردازنده کوچک در درون سیستم های جاری مورد استفاده قرار می گیرند.

برای قابلیت به روز رسانی افزایشی، الگوریتم خوشه بندی، روش های آم��اری )ب��ه عن��وان• (، و مدل های گ��روهی ب��ه راح��تی می توانن��د ب��ه ص��ورتBayesian، شبکه های HMMمثال،

ه�ا، ی�ا م�دل هایsvm ه�ا، ANNافزایشی به روز شوند با این حال، به روز رسانی ها برای تکاملی ممکن است منجر به مشکالت شود

یک قابلیت تعمیم خوب مورد نیاز است ت��ا م��دل آموزش دی��ده از م��دل ش��روع زم��انی ک��ه• ه��اDM و theداده های ورودی جدید دیده می ش��وند منح��رف نش��ود. اک��ثر روش ه��ای آل -

توانایی تعمیم خوبی دارند.

مرحله آزمایش برای روش ها به طور کلی با توجه به اندازه داده ورودی، معموالً به ت��رتیب زم��ان خطی است. بنابراین، زمانی که آموزش دید، بیش��تر روش ه��ا را میت��وان ب��ه ص��ورت آنالین م��ورد

استفاده قرار داد.

5بخش مشاهدات و توصیه ها

برای تشخیص نفوذ سایبری یافت می ش�ود نش��ان می ده��د ک��هDM و MLمیزان کاغذهایی که در این روش ها یک حوزه تحقیقاتی رایج و فزاینده ب��رای ام��نیت س��ایبری هس��تند. س��وال این اس��ت: کدام یک از این روش ها موثرترین برنامه های اینترنتی هستند؟ متاسفانه این هن��وز برق��رار نش��ده

است.

- مشاهدات مرتبط با مجموعه های داده1 برای دامنه اینترنتی که مورد بررس��ی ق��رار گرفتن��د )وDM و ML، مقاالت نماینده VIIIدر جدول توضیح داده شدند(، از جمله تعداد دفعاتی که آن ها ذکر شده اند، مش��کل س��ایبری ک��ه۴در بخش

Page 15: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

مقاله فهرست شده در جدول۳۹آن ها حل می شوند، و داده های مورد استفاده. جالب است که از VIII، ۲۸ ۲۰۰۰، دارپا ۱۹۹۸ مورد استفاده دارپا ،DARPA م��ورد۱۹۹۹ داده ه��ای KDD و ی��ا ۲۰۰۰

استفاده ش��ده،tcpdump استفاده ش��ده، دو داده NetFlowاستفاده قرار گرفتن��د. تنه��ا از داده ه��ای استفاده ک��رد، و چه��ار م��ورد از ن��وعSSH استفاده شد، یکی از فرمان های DNSیکی از داده های

دیگری از داده ها را مورد استفاده قرار داد. در هنگام شناسایی مق��االت نماین��ده، این مطالع��ه در ب��ه عن��وان نویس��ندگان م��ورد اس��تفاده ق��رار گ��رفت و این حقیقت ک��هDM ی��ا MLابتدا به روش

مقاالت نشان دهنده سو استفاده، ناهنجاری، یا رویک��رد ترکی��بی بودن��د. یکی دیگ��ر از عوام��ل مهم این بود که مقاالت به شدت مرجع بودند، که نشانه کیفیت آن ه��ا محس��وب می ش��د. ب��ا این ح��ال، حتی اگر هنوز شانس این را نداشته باشند که به ش��دت مرج��ع باش��ند، ب��رخی از روش ه��ای ت��ازه

ی��ا بع��د را۲۰۰۰پدیدار شده نیز در نظر گرفته شدند. اگرچه این مطالعه مقاالت مربوط به س��ال مورد هدف قرار داد، دو مقاله قبلی به خوبی نوشته شده و به شدت مورد استناد قرار گرفتن��د و

بنابراین در این مقاله بررسی شد.

و داده های کاربردDM و روش های VIIIجدول

مربوط به KDD استفاده می کنند و مجموعه های داده the این حقیقت که بسیاری از مقاالت از این است که چقدر زمان و زمان گیر آوردن یک مجموعه داده نماینده بستگی دارد. زمانی که چنین مجموعه داده موجود باشد، محققین تمایل به استفاده مجدد از آن دارند. عالوه بر این، استفاده مجدد از همان مجموعه داده باید اجازه مقایسه آسان دقت روش های مختلف را بدهد. این موضوع کامالً درست نبود ،KDD همانطور که قبالً بحث شد، در مورد مجموعه داده دارپا و

Page 16: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

زیرا این مجموعه داده ها آنقدر بزرگند که محققان برای کار بر روی زیرمجموعه های مختلف بحث کردند نیز در مورد عملکرد NetFlow انتخاب کردند. دو مقاله که در مورد استفاده ازمجموعه غنی از NetFlow تشخیص ناهنجاری بحث و تبادل نظر کردند. بدیهی است کهیا مشخصه های الزم برای تشخیص امضاهای خاص در KDD یا دارپا یا tcpdump ویژگی هایی چون تشخیص سو استفاده ندارد. )ویژگی های آن محدود به اطالعات جریان ایجادشده توسط روترهای.نهایی باالتر هستند(

B عوامل مرتبط با عملکرد .IDS ، نوع و سطح داده های ورودی اس��ت. هم��انطور ک��هofیکی از مهم ترین عوامل مرتبط با عملکرد

استفاده کردند، زی��را ب��ه راح��تیKDDقبالً بحث شد، چندین مطالعه از دارپا یا مجموعه های داده ه��ای امنی��تی وlog های شبکه، logبه دست آوردن و مهار داده های سطح شبکه )به عنوان مثال،

فراخوانی سیستم هسته( آسان هستند. در وهله اول، داده ه��ای حمل�ه ب��ه پش��ته ش��بکه می آین��د و تاثیر این بسته ها روی سطح سیستم عامل اطالعات مهمی را حم��ل می کنن��د. در نتیج��ه، س��ودمند

)بس��یارNetFlow قادر به دستیابی به داده های سطح شبکه و هسته هستند. اگ��ر تنه��ا anاست که موج��ود باش��ند، این داده ه��ا بای��د توس��طtheآسان تر ب��رای بدس�ت آوردن و پ��ردازش( داده ب��رای

داده های سطح شبکه مانند سنسورهای شبکه که ویژگی ه��ای اض��افی بس��ته ها ی��ا نهره��ا را ایج��اد OSمی کنند افزایش یابد. در صورت امکان، داده های شبکه باید با داده ه��ای س��طح سیس��تم عامل

تقویت ش��ده ش��وند. هم��انطور ک��ه کش��ف ش��د، چن��دین مطالع��ه ب��ا بررس��ی دس��تورها س��طح سیستم عامل )یعنی، مبتنی بر میزبان( و نه بس��ته های ش��بکه، ب��ه مش��کل تش��خیص نف��وذ نزدی��ک

شدند.

Cمعیارهای مقایسه . برای سایبری را میتوان مقایسه کرد. ml / dmچندین معیار وجود دارند که روش های

دقت•

زمان آموزش یک مدل •

زمان طبقه بندی یک نمونه ناشناس •

ادغام راه حل نهایی )طبقه بندی(•

mlاگر کسی دقت چندین / dmرا مقایسه کرد, این روش ها باید دقیق��ارویً داده ه��ای آموزش��ی یک سان آموزش داده شوند و دقیقارویً داده های آزمایش مشابه تست ش��وند. متاس��فانه, ح��تی در بررسی هایی که از همان مجموعه داده ها استفاده کردن��د, هنگ��امی ک��ه آن ه��ا نت��ایج خ��ود را ب��ا بهترین روش های موجود از جام جهانی مقایسه کردند )و معم��والً ادع��ا می کردن��د ک��ه نت��ایج آن ه��ا بهتر است(, آن ها از زیرمجموعه ای از مجموعه داده های سری استفاده کردن��د, ام��ا لزوم��اً هم��ان

زیر مجموعه نبودند. بنابراین دقت این نتایج قابل مقایسه نیست.

Page 17: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

زمان آموزش یک مدل عامل مهمی است که به دلیل تغییر انواع حمالت سایبری و ویژگی های آن تغییر می کند. حتی ردیاب بی قاعدگی باید به ط�ور م��رتب آم��وزش داده ش�ود، ش�اید ب��ه ص��ورت

تدریجی، با به روزرسانی های امضا مجدد جدید. زمان برای طبقه بندی یک مثال جدید عامل مهمی است که زمان واکنش و قدرت پردازش بس��ته

سیستم تشخیص نفوذ را منعکس می کند. قابلیت خواندن یا خوانایی بر روی مدل طبقه بندی ابزاری است ک��ه ب��ه م��دیران کم��ک می کن��د ت��ا ویژگی های مدل را به راحتی بررس��ی کنن��د ت��ا سیس��تم های خ��ود را ب��ه س��رعت وص��له کنن��د. این اطالعات )مانند نوع بسته، شماره درگاه، ی��ا چن��د وی��ژگی بس��ته ش��بکه در س��طح ب��اال( از طری��ق بردارهای ویژگی که توسط طبقه بندی کننده به عنوان یک گروه مزاحم برچسب گذاری می شوند،

در دسترس خواهد بود.

D. peculiarities از ML و DMبرای سایبر ML و DMدر بسیاری از کاربردها به شدت مفید بوده اند. دامنه اینترنتی دارای خصوصیاتی است

که استفاده از آن را سخت تر می کند. این ویژگی ها به طور خاص مربوط به این هستند ک��ه م��دلاغلب باید دوباره آموزش داده شود و در دسترس بودن داده های برچسب دار.

، ی��ک م��دل )ب��ه عن��وان مث��ال، طبقه بن��دی کنن��ده( آم��وزش دادهDM و MLدر اغلب برنامه ه��ای می شود و سپس برای مدتی طوالنی ب��دون هیچ گون��ه تغی��یر اس��تفاده می ش��ود. در آن برنامه ه��ا، ف��رض می ش�ود ک��ه فرآین��دهای ش��به ث��ابت هس��تند و بن��ابراین آم��وزش مج��دد م��دل اغلب اتف��اق نمی افت��د. وض��عیت در تش��خیص نف��وذ س��ایبری متف��اوت اس��ت. م��دل ها ه��ر روز آم��وزش داده می شوند، هر زمان که تحلیلگر به نیاز دارد، یا هر بار یک نفوذ جدید شناسایی می ش��ود و الگ��وی آن مشخص می شود. به خصوص زم��انی ک��ه ق��رار اس��ت م��دل ها ه��ر روز آم��وزش ببینن��د، زم��ان

روز تمام طول بکشد تا مدل را تغی�یر ده��د( ب�ه۱آموزش آن ها مهم می شود. )قطعا باید کم تر از دوره آموزشی را از نو آغاز می کنند. با این حال، اگر ی��ک م��دلDM و MLطور سنتی، روش های

نیاز به آموزش مجدد داشته باشد )به عنوان مثال، روزانه( به دلیل چند تغییر در داده ه��ا، از م��دل آموزش دیده شروع کرده و به آموزش آن و یا استفاده از مدل های خود - انطباقی ادامه می ده��د. یک حوزه حاصلخیز برای تحقیق، بررسی روش های ی��ادگیری ت��دریجی س��ریع اس��ت ک��ه می توان��د

برای به روز رسانی های روزانه مدل ها برای سو استفاده و تشخیص غیر عادی به کار رود. حوزه های بسیاری وجود دارند که در آن ها دستیابی ب��ه داده ه��ای آموزش��ی آس��ان اس��ت، و در آن

ها معموالً پیشرفت می کنند )به عنوان مثال، توص��یه هایی ک��ه آم��ازون ب��رایDM و MLحوزه های مشتریان خود می سازد(. در مناطق دیگر ک��ه ب��ه دس��ت آوردن داده ه��ا دش�وار اس�ت )ب��ه عن��وان

ه��ا می توانن��دDM و MLمثال، داده های پایش سالمتی برای ماشین آالت ی��ا هواپیم��ا(، برنامه ه��ای فراوان باشند. در حوزه سایبر، اطالع��ات بیش��تر را میت��وان ب��ا ق��رار دادن سنس��ورها در ش��بکه ها

TCPً ی��ا NetFlowبرداشت )به عنوان مثال برای گ��رفتن (، ک��ه اگرچ��ه ک��ار آس��انی نیس��ت، قطع��اارزشمند است.

با این حال، یک مشکل با حجم گسترده آن داده وجود دارد - اطالعات بسیار زی��ادی ب��رای ذخ��یره )ترابایت در روز( وجود دارد. مشکل دیگر این اس��ت ک��ه ب��رخی از داده ه��ا بای��د برچس��ب گ��ذاری شوند تا مفید باشند، که ممکن است یک کار پ��ر زحمت باش��د. داده ه��ا ب��رای آم��وزش قطع��اً بای��د

Page 18: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

برچسب زده شوند، و این حتی برای روش های تشخیص بی قاعدگی خالص نیز صادق اس��ت. این روش ها باید از داده هایی که نرمال هستند اس��تفاده کنن��د؛ آن ه��ا نمی توانن��د م��دلی را ب��ا داده ه��ای حمله ایجاد کنند. عالوه بر این، از آنجایی که باید با حمالت جدید تست ش��وند، ب��رخی از داده ه��ای حمله جدید نیز مورد نیاز هس��تند. بزرگ ت��رین ش��کاف مشاهده ش��ده در دس��ترس ب��ودن داده ه��ای برچسب گذاری شده و قطعاً یک سرمایه گذاری ارزشمند برای جمع آوری داده ها و برچسب برخی از آن ها خواهد بود. با استفاده از این مجموعه داده جدید، پیشرفت های ق��ابل توجهی می توان��د ب��ه

در امنیت سایبری و امکان پذیر باشد. در غیر این ص��ورت به��ترین مجموع��هDM و MLروش های س��ال۱۵ می باش��د. )ب��ا این ح��ال، ۱۹۹۹داده موجود در حال حاضر مجموع��ه داده تص��حیح ش��ده

س��ال گذش��ته رخ۱۵قدمت دارد، این مجموعه داده ها نمونه هایی از تم��ام حمالت جدی��دی ک��ه در داده اند را ندارد(.

E توصیه ها و .DMبرای سو استفاده و تشخیص ناهنجاری Idsها معموالً هیبرید دارند و روش های تشخیص غیر عادی و روش های تش��خیص س��و اس��تفاده را

دارا می باشند. ماژول تشخیص ناهنجاری ترافیک شبکه غ�یر ع�ادی را طبقه بن�دی می کن�د. م�اژول تشخیص سو استفاده الگوهای حمله را با امضاهای شناخته شده طبقه بن��دی می کن��د ی��ا امض��اهای

استخراج می کند.anomalyجدید را از داده های برچسب خورده به دست آمده از ماژول غالباً، یابنده غیر عادی مبتنی بر یک روش خوشه بندی اس��ت. در می��ان الگوریتم ه��ای خوش��ه بندی،

، ساده برای پیاده سازی، پارامتر کم تر ی��اthe(�� dbscanروش های مبتنی بر چگالی )به عنوان مثال، ها یک کالسsvmوابسته توزیع، و دارای سرعت پردازش باالیی هستند. در ردیاب های غیر عادی،

نیز عملکرد خوبی دارند و می توانند ب��ا اس��تخراج قواع��د ارتب��اط ی��ا الگوه��ای ترتی��بی از داده ه��اینرمال ترافیک موجود یاد بگیرند.

در میان دستگاه های سو استفاده، چون امضاها باید ثبت شوند، مهم اس��ت ک��ه طبقه بن��دی کنن��ده قادر به ایجاد امضاهای قابل خواندن، مانند ویژگی های شاخه ای در یک درخت تصمیم گیری، ژن ه��ا در یک الگوریتم ژنتیک، ق��وانین در ی��ک الگ��وریتم ژنتی��ک، ی��ا ت��والی در مع�دن کاری ترتی��بی باش��ند.

ه��ا ب��رای تش��خیص س��و اس�تفادهsvm ه��ا و ANNبنابراین، طبقه بندی کننده های جعبه سیاه مانند مناسب نیستند.

برای تش��خیص س�و اس�تفاده مناس�ب هس��تند. ب��رخی از اینDM و MLچندین الگوریتم پیشرفته مانن��دentropy هس��تند؛ ب���رخی از آن ه��ا hmms و Bayesianروش ه��ا آم���اری مانن��د ش��بکه های

الگوریتم های ژنتیک هستند؛ برخی از آن ها تکاملی مانند الگوریتم های ژنتیک هستند؛ برخی از آن ها روش های گ��روهی مث��ل جنگل ه��ای تص��ادفی هس��تند؛ و ب��رخی براس��اس ق��وانین ارتب��اط هس��تند. طراحان سیستم باید بررسی کنند که آیا داده ه��ای آموزش��ی دارای کیفیت ک��افی خ��وب هس��تند و دارای ویژگی های آماری هس��تند ک��ه میت��وان از آن ه��ا بهره ب��رداری ک��رد )ب��ه عن��وان مث��ال، توزی��ع گاوسی(. همچنین مهم است که ب��دانیم آی��ا سیس��تم م��ورد نی��از بص��ورت آنالین ی��ا برون خ��ط ک��ار

را تع��یین خواه��د ک��رد. ب��هMLخواهد کرد یا نه. پاسخ به چنین پرسش هایی، مناسب ترین رویکرد نظر نویسندگان این مقاله، داده های شبکه را نمیتوان به درستی با استفاده از یک توزیع ساده )به عنوان مثال، گاوسی( با توجه به این واقعیت که در عمل، یک بسته شبکه منف��رد می توان��د ح��اوی بار مفید باشد که می تواند به ده ها پروتکل شبکه و رفتارهای کاربر مرتب��ط باش��د. تغییرپ��ذیری در بار مفید، ب��ا اس��تفاده از توزیع ه��ای احتم��الی چندگان��ه ی��ا توزیع ه��ای احتم��االت مش��ترک مش��خص

Page 19: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را

ی��اBayesianمی شود که به طور مستقیم قابل تفکیک نیستند. بنابراین، روش هایی مثل ش��بکه های hmmsممکن است قوی ترین رویکرد نباشند چون داده ه��ا دارای خواص��ی نیس��تند ک��ه ب��رای آن ه��ا

مناسب تر باشد. روش های محاسباتی تکاملی ممکن است زمان زیادی طول بکشد تا اجرا شود و بنابراین ممکن است برای سیستم هایی که آنالین آموزش می دهند مناس��ب نباش��د. اگ��ر داده ه��ای آموزشی کمیاب باشند، جنگل های تصادفی ممکن است یک مزیت داشته باشند. اگر ثبت امض��ای

حمله مهم باشد، درخت تصمیم گیری، محاسبات تکاملی و قوانین ارتباط می تواند مفید باشد.

6بخش نتیجه گیری

ب��رای س��ایبری را ش��رح می ده��د. تاکی��دDM و MLاین مقاله بررسی متون مربوط به روش ه��ای را در ح��وزه س��ایبر، همDM و MLویژه بر پیدا کردن مقاالت نمونه که کاربرد تکنیک های مختلف

برای سو استفاده و هم ب�رای تش�خیص غ�یر ع�ادی توص�یف می کن�د، ق�رار داده ش�د. متاس�فانه، روش هایی که برای کاربردهای سایبری بیش ترین اثربخشی را دارند ایجاد نشده اند؛ و با توجه ب��ه غنای و پیچیدگی روش ها، ایجاد یک توصیه برای هر روش، براساس نوع حمل�ه ک�ه انتظ��ار می رود سیستم شناسایی شود، غیر ممکن است. هنگام تعیین موثر بودن روش ها، یک معیار وجود ن��دارد بلکه چندین معیار الزم است که باید در نظر گرفت�ه ش�ود. آن ه�ا ش�امل دقت، دقت، زم�ان ب�رای

راه ح��ل نه��اییunderstandabilityطبقه بن��دی ی��ک نمون��ه ناش��ناخته ب��ا ی��ک م��دل آموزش دی��ده و خ��اص، ب��رخی از آن ه��ا ممکن اس��ت از بقی��هthe ها هستند. بسته ب��ه DM یا ML)طبقه بندی( هر

مهم تر باشند. برای تشخیص نفوذ سایبری اهمیت مجموعه های داده ب��رای آم��وزشDM و MLجنبه حیاتی دیگر

ب��دون داده ه��ای نماین��ده نمی توانن��د ک��ار کنن��د وDM و روش های MLو آزمایش سیستم ها است. زمان گیر کردن چنین مجموعه هایی دشوار و دشوار است. برای این که بتواند تشخیص غیر عادی

مفید است که قادر به دس��تیابی ب��ه داده ه��ایIDSو تشخیص سو استفاده را انجام دهد، برای یک موج��ود باش��ند، این داده ه��ا بای��د توس��طNetFlowسطح شبکه و کرنل باشد. اگر فق��ط داده ه��ای

داده های سطح شبکه مانند سنسورهای شبکه که ویژگی ه��ای اض��افی بس��ته ها ی��ا نهره��ا را ایج��اد OSمی کنند افزایش یابد. در صورت امکان، داده های شبکه باید با داده ه��ای س��طح سیس��تم عامل

تقویت شده شوند. بزرگ ترین شکاف مشاهده شده در دسترس ب��ودن داده ه��ای برچس��ب گ��ذاری ش��ده و قطع��اً ی��ک سرمایه گذاری ارزشمند برای جمع آوری داده ها و برچسب برخی از آن ها خواهد بود. با استفاده از

ها را میتوان برای توسعه مدل ها و در مقایس��ه ب��اDM و MLاین مجموعه داده جدید، چندین نوع و م��وثر ب��ودن ب��رای کاربرده��ای س��ایبری اس��تفاده ک��رد. پیش��رفت هایMLمحدود کردن لیس��ت

در امنیت سایبری با استفاده از این مجموع��ه داده وDM و MLچشمگیری می تواند به روش های امکان پذیر باشد.

را ب��رای اس��تفادهDM و MLبرخی از ویژگی های این مساله سایبری وجود دارن��د ک��ه روش ه��ای ( توضیح داده شد. آن ها به خصوص بهDدشوار می سازد )همانطور که در بخش ششم، زیربخش

این موضوع مربوط هستند که مدل اغلب باید دوباره آموزش داده شود. یک حوزه حاصلخیز برای تحقیق، بررسی روش های یادگیری تدریجی س��ریع اس��ت ک��ه می توان��د ب��رای ب��ه روز رس��انی های

روزانه مدل ها برای سو استفاده و تشخیص غیر عادی به کار رود.

Page 20: مقدمهostan-qz.ir/.../files/sprep/doc/mehrdad_keshavarz.docx · Web viewتکنیک های مبتنی بر ناهنجاری، رفتار شبکه و رفتار سیستم را